<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>中文Flex例子 &#187; 全文检索</title>
	<atom:link href="http://blog.minidx.com/tag/%e5%85%a8%e6%96%87%e6%a3%80%e7%b4%a2/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.minidx.com</link>
	<description>中文Adobe Flex例子,Flex实例教程,RIA资源,全文检索技术,算法和数据结构</description>
	<lastBuildDate>Thu, 31 Mar 2011 03:22:33 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>2008年4月最后一天PR开始再次更新</title>
		<link>http://blog.minidx.com/2008/04/30/809.html</link>
		<comments>http://blog.minidx.com/2008/04/30/809.html#comments</comments>
		<pubDate>Tue, 29 Apr 2008 23:35:44 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[随便写写]]></category>
		<category><![CDATA[Chinajoy]]></category>
		<category><![CDATA[CnCookie]]></category>
		<category><![CDATA[Ntt.cc]]></category>
		<category><![CDATA[PR]]></category>
		<category><![CDATA[全文检索]]></category>
		<category><![CDATA[博客]]></category>
		<category><![CDATA[更新]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/04/30/809.html</guid>
		<description><![CDATA[早上打开自己的全文检索博客的时候，发现PR又开始更新了，还不是很稳定，有时候会显示老数据。下面是我的几个站点的PR更新情况：全文检索博客的更新到了PR=6，而Ntt.cc也没有令我失望，直接从PR=0更新到了PR=8，Cncookie这个几百年不更新了的站点，也开始摆脱原来的阴影，更新到了PR=6，Chinajoy更新到了PR=5。后面两个更新频率非常低，文章数也很少，所以对于这两个站点，多少有点意外。








 细细算来的话，这已经是2008年的第4次更新了。前三次分别发生在一月（Google的PR开始了2008年的第一次更新），二月（Google PR 2008的第二次更新）和四月（08年4月份部分中文博客的PR被降低了）。其中二月的更新被认为是1月份的补充，而4月中旬的则是带有“惩罚性”的（因为只降不升），所以严格算的话，也可以算是2008年的第二次更新吧。
你可能还对下列文章感兴趣:博客收益：中文博客VS.英文博客VS.日文博客2009年3月底PR开始更新Google的PR开始了2008年的第一次更新想去掉首页的&#8220;友情链接&#8221;（Blogroll）&#8230;&#8230;从&#8220;公平&#8221;，&#8220;发展&#8221;的角度来看feedsky的话题营销]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/04/30/809.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>&#8220;全文检索(full-text search)&#8221;和&#8220;搜索引擎(search engine)&#8221;的区别和联系</title>
		<link>http://blog.minidx.com/2008/01/03/340.html</link>
		<comments>http://blog.minidx.com/2008/01/03/340.html#comments</comments>
		<pubDate>Wed, 02 Jan 2008 16:02:41 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[PageRank]]></category>
		<category><![CDATA[倒排索引]]></category>
		<category><![CDATA[全文检索]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[反向索引]]></category>
		<category><![CDATA[查全率]]></category>
		<category><![CDATA[查准率]]></category>
		<category><![CDATA[符素解析]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[语根处理]]></category>
		<category><![CDATA[超链分析技术]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/01/03/340.html</guid>
		<description><![CDATA[ 本博客称之为“全文检索博客”，而不是“搜索引擎博客”，那么，“全文检索(full-text search)”和“搜索引擎(search engine)”的区别是什么？他们之间又存在着怎么样的联系？
由于Google等搜索引擎公司高速发展，使得“搜索引擎(search engine)”深入人心，使得在很多人心中，将Google，Baidu于搜索引擎划上了等号……让我们来深入了解一下这两个名词以及相关的概念吧。








●全文检索(full-text search)：
从文本或数据库中，不限定资料字段，自由地萃取出讯息的技术。
●搜索引擎(search engine)：
执行全文检索任务的程序，一般称作搜索引擎(search engine)，它将使用者随意输入的文字，试图从数据库中，找到符合的内容。
上面是来自百科全书的两个名词的解释。
目前一般用户理解的搜索引擎，通常是指自动从互联网搜集信息，经过一定整理以后，提供给用户进行查询的系统。互联网上的信息浩瀚万千，而且毫无秩序，所有的信息象汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为用户绘制一幅一目了然的信息地图，供用户随时查阅。其实还有桌面搜索引擎，网站站内搜索引擎等
对于英文，需要经过语根处理 (stemming)，符素解析(token parser)，分词(word segmentation)，索引(index)等处理后，才可以进行查询(Search/Query)，中文没有词形的变化，不需要语根处理 (stemming)，但是中文分词不像英文那样可以按照空格来划分，相对比较复杂，目前采用的技术比较普遍的是1-gram, 2-gram, N-gram。
索引(index)效率比较高的算法是反向索引（inverted index），通常也成为倒排索引。
搜索引擎处理的对象一般是文本(Text)，可以通过《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中的技术，对doc,xls等非文本文件进行文本抽取，但是这些都属于搜索引擎外围部件。
评测一个搜索引擎的好坏，查全率(recall rate)和查准率(precision)是两个非常重要的参数，互联网由于海量的信息量，所以有了Google PageRank和百度的中文搜索由超链分析技术，使得用户可以更加快速的找到自己需要的。
你可能还对下列文章感兴趣:搜索引擎之排序技术分析搜索引擎之中文分词(Chinese Word Segmentation)简介technorati.com认领贴顺便介绍一下technoratiMinidx.RC1.1的中日英版本下载数都已经超过1K了2009年第一次Google PR全面更新 ]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/01/03/340.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>Minidx.RC1.1的中日英版本下载数都已经超过1K了</title>
		<link>http://blog.minidx.com/2007/12/11/236.html</link>
		<comments>http://blog.minidx.com/2007/12/11/236.html#comments</comments>
		<pubDate>Tue, 11 Dec 2007 14:18:06 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[Minidx相关]]></category>
		<category><![CDATA[Minidx]]></category>
		<category><![CDATA[全文检索]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[文件管理]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2007/12/11/236.html</guid>
		<description><![CDATA[自从11月20日发布了Minidx.RC1.1.Installer.exe，因为情绪的问题就没碰过Minidx了。今天想起来到http://minidx.com看看，发现http://minidx.com和http://cn.minidx.com 下的Minidx.RC1.1.Installer.exe版本下载量分别为1341和1282，http://jp.minidx.com 下也有127，这是因为Minidx已经收录与Vector(这里)，而鬼子们习惯于在这里下载，加起来也已经超过1K了~Minidx全文检索引擎2.0开发完成已经有一段时间了，一直懒得集成到Minidx系统中，呵呵，看来还是要整顿整顿心情，继续~~~
你可能还对下列文章感兴趣:利用Minidx Extract-Text Com组件封装类的实现利用Minidx Extract-Text Com组件从doc,Xls,Pdf&#8230;&#8230;等读取文本内容VC Demo&#8220;全文检索(full-text search)&#8221;和&#8220;搜索引擎(search engine)&#8221;的区别和联系利用Minidx Extract-Text Com组件从Word,Xls,Pdf&#8230;&#8230;等文件中读取文本内容SWIG发布1.3.33版本]]></description>
		<wfw:commentRss>http://blog.minidx.com/2007/12/11/236.html/feed</wfw:commentRss>
		<slash:comments>38</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk
Page Caching using disk (enhanced)
Database Caching using disk
Object Caching 296/602 objects using disk

Served from: blog.minidx.com @ 2012-02-10 03:18:29 -->
