<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>中文Flex例子 &#187; 中文分词</title>
	<atom:link href="http://blog.minidx.com/tag/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.minidx.com</link>
	<description>中文Adobe Flex例子,Flex实例教程,RIA资源,全文检索技术,算法和数据结构</description>
	<lastBuildDate>Thu, 31 Mar 2011 03:22:33 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>搜索引擎之中文分词(Chinese Word Segmentation)简介</title>
		<link>http://blog.minidx.com/2008/01/04/352.html</link>
		<comments>http://blog.minidx.com/2008/01/04/352.html#comments</comments>
		<pubDate>Thu, 03 Jan 2008 16:02:35 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[Trie]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[人机交互]]></category>
		<category><![CDATA[信息提取]]></category>
		<category><![CDATA[信息检索]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[双数组]]></category>
		<category><![CDATA[字符串匹配]]></category>
		<category><![CDATA[文本挖掘]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/01/04/352.html</guid>
		<description><![CDATA[ 在《“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系》中我们提及到了中文分词，以及《双数组Trie(Double Array Trie)实现原理的一点剖析》中阐述了高效率中文分词的实现。接下来让我们抛开双数组Trie的那些公式，从概念上来了解一下分词技术，因为英文分词相对比较简单，这里主要来了解的是中文分词。
英文是以词为单位的，词与词之间上靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，翻译成“我是一个学生”。计算机可以很简单的通过空格知道student是一个单词，但是“学”，“生”假如分开来，计算机是无法理解的。必须把他们合在一起才变得有意义。把中文的汉字序列切分成有意义的词，就是中文分词。再比如“研究生命”，可以划分为“研究生/命”，也可以是“研究/生命”，假如是人脑可以很明显的判断出这里后者的划分更加的确切，但是计算机要做到这一点却是相当的困难。
现有的分词算法有3种：基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。








什么是中文分词何为分词？中文分词与其他的分词又有什么不同呢？分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在上面的例子中我们就可以看出，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段可以通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，但是在词这一层上，上面的例子中我们也可以看出，中文比之英文要复杂的多、困难的多。 
中文分词的意义和作用 要想说清楚中文分词的意义和作用，就要提到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说，智能计算就是让机器“能看会想，能听会讲”，让计算机像人类一样可以快速判断出“研究生命”这样短语的切分。要想实现这样的一个目标，首先就要让机器理解人类的语言，只有机器理解了人类的语言文字，才使得人与机器的交流成为可能。再反观我们人类的语言中，“词是最小的能够独立活动的有意义的语言成分”，所以对于中文来讲，将词确定下来是理解自然语言的第一步，只有跨越了这一步，中文才能象英文那样过渡到短语划分、概念抽取以及主题分析，以至于自然语言理解，最终达到智能计算的最高境界，实现人类的梦想。目前我们常用的Google,Baidu，Yahoo这些主流的搜索引擎，还都是基于关键字(Keyword)来匹配结果的，不过可喜的是，已经有很多公司投入了大量的资金进行着自然语言检索的方式来进行查询，随着研究的进行，计算机可以理解人类的语言从而实现真正意义上的人机对话，那也将不再是遥不可及的而变得指日可待了。从现阶段的实际情况来看，英文已经跨越了分词这一步，也就是说在词的利用上已经先我们一步，并且已经展现了良好的应用前景，无论是信息检索还是主题分析的研究都要强于中文，究其根本原因就是中文要通过分词这道难关，只有攻破了这道难关，我们才有希望赶上并超过英文在信息领域的发展，所以中文分词对我们来说意义重大，可以说直接影响到使用中文的每一个人的方方面面。 
中文分词的应用 中文分词主要应用于信息检索、人机交互、信息提取、文本挖掘、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。 通过近几年的发展，互联网已经离我们不再遥远。互联网上的信息也在急剧膨胀，在这海量的信息中，各类信息混杂在一起，要想充分利用这些信息资源就要对它们进行整理，如果由人来做这项工作，已经是不可能的，而如果面对中文信息不采用分词技术，那么整理的结果就过于粗糙，而导致资源的不可用，例如一个我们常见的比较经典的例子：“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”，而被当作同一类来处理，结果是检索“和服”的相关信息，会将他们都检索到，在信息量少的情况下，似乎还能够忍受，如果是海量信息，这样的结果就会令人讨厌了。通过引入分词技术，就可以使机器对海量信息的整理更准确更合理，在 “制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理，那么检索“和服”当然不会将它检索到，使得检索结果更准确，效率也会大幅度的提高。 所以中文分词的应用会改善我们的生活，使人们真正体会到科技为我所用。目前对分词的研究，大都集中于通用的分词算法，以提高分词准确率为目的。
目前的分词算法中，一些切分精度比较高的算法，切分的速度都比较慢；而一些切分速度快的算法，因为抛弃了一些繁琐的语言处理，所以切分精度都不高。 
速度：每秒几十k~几M
切分正确率：80%～98%&#160;&#160;&#160;
中文分词简介和困难&#160;&#160;
中文分词(Chinese Word Segmentation)：将一个汉字序列切分成一个一个单独的词。比如将“一次性交足100元”切分成“一次/性交/足/100/元”的话，那这样比较“色”的分词并不是我们所希望的。另外还有就是未登录词识别，比如“施瓦辛格”这个词字典中并没有，如何才能让计算机正确的识别出这是一个词，当然这并不是中文分词所独有的难点，英文等其他语言也都有这样的问题。&#160;
分词规范：词的概念和不同应用的切分要求
分词算法：歧义消除和未登录词识别&#160;&#160;
分词规范方面的困难&#160;&#160;
汉语中词的界定，也就是消除歧义
“长春市长”：“长春/市长”？“长春市/长”？“长春/市/长” ？
核心词表如何收词？
词的变形结构问题：“看/没/看见” ，“相不相信”&#160;&#160;
分词算法上的困难&#160;&#160;
●切分歧义的消除
交集型歧义（交叉歧义）：“组合成”
我们/小组/合成/氢气了；组合/成/分子；
–组合型歧义（覆盖歧义）：“马上”
他/从/马/上/下/来；我/马上/就/来/了 ；
–“学生会组织义演活动” : “学生/会/组织/义演/活动” or “学生会/组织/义演/活动”?
●未登录词识别
–命名实体：数词、人名、地名、机构名、译名、时间、货币
–缩略语和术语：“超女”、“非典”
–新词：“酱紫”、“星盘”
●先识别已知词还是先识别未登录词
–先识别已知词：“内塔尼亚/胡说”
–先识别未登录词：“胜利取决/于勇/气”&#160;&#160;
常用评测指标&#160;&#160; 



召回率(Recall) 



准确率(Precision) 
 



基于词典和规则的方法&#160;&#160;
●最大匹配
–正向最大匹配、反向最大匹配和双向最大匹配
–实现简单，而且切分速度快。但无法发现覆盖歧义，对于某些复杂的交叉歧义也会遗漏。
实际试验的结果表明，反向最大匹配的准确率要高于正向最大匹配。
●全切分
–利用词典匹配，获得一个句子所有可能的切分结果。
–时空开销非常大。
●基于理解的分词算法
–模拟人的理解过程，在分词过程中加入句法和语义分析来处理歧义问题。
–难以将各种语言信息组织成机器可直接读取的形式，还处在试验阶段&#160;&#160;&#160;
基于规则的消歧和未登录词识别
这一步其实在语根处理 (stemming)中也可以处理，比如Snowball就是一个不错的过滤器，但是可惜的是目前的版本出错率比较高。
–规则消歧
CONDITION FIND(R,NEXT,X){%X.ccat=~w}SELECT 1
CONDITION FIND(L,NEAR,X){%X.yx=听&#124;相信&#124;同意}SELECT 1
CONDITION FIND(L,NEAR,X){%X.yx=假如&#124;如果&#124;假设&#124;要是&#124;若}SELECT 2
OTHERWISE SELECT 1
–用规则识别未登录词
LocationName à Person Name LocationNameKeyWord
LocationName à Location Name LocationNameKeyWord
OrganizationName à Organization Name OrganizationNameKeyWord
OrganizationName à Country Name {D&#124;DD} [...]]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/01/04/352.html/feed</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>UTF8编码的中文词库下载</title>
		<link>http://blog.minidx.com/2007/12/12/241.html</link>
		<comments>http://blog.minidx.com/2007/12/12/241.html#comments</comments>
		<pubDate>Wed, 12 Dec 2007 14:49:48 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[Minidx相关]]></category>
		<category><![CDATA[Minidx]]></category>
		<category><![CDATA[UTF8]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[中文词库]]></category>
		<category><![CDATA[字典]]></category>
		<category><![CDATA[编码]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2007/12/12/241.html</guid>
		<description><![CDATA[其实这里提供的中文词库是是Sucirst转发给我的，“做任何搜索或者其他应用的词库都不是一个人能完成的，原来在和一些朋友讨论的时候得到了附件中的资料，是用于Lucene的中文UTF-8词库，也许对你也能有些帮助……”，Minidx目前拥有非常庞大的词库而没有使用这一词库，不过非常感谢Sucirst，呵呵，正如Sucirst所说的，也许有人需要，所以在这里传上来，在http://cn.minidx.com/index.php?option=com_docman&#38;task=cat_view&#38;gid=17 （相关文档资料中）下载
你可能还对下列文章感兴趣:自动链接CGI和HTML的Location功能GBK,BIG5等字符集编码范围的具体说明利用Minidx Extract-Text Com组件封装类的实现利用Minidx Extract-Text Com组件从doc,Xls,Pdf&#8230;&#8230;等读取文本内容VC2003 Demo将任意的非ASCII字符串进行HTML的URL编码]]></description>
		<wfw:commentRss>http://blog.minidx.com/2007/12/12/241.html/feed</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk
Page Caching using disk (enhanced)
Database Caching 3/18 queries in 0.146 seconds using disk
Object Caching 232/457 objects using disk

Served from: blog.minidx.com @ 2012-02-10 03:27:29 -->
