<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>中文Flex例子 &#187; 查准率</title>
	<atom:link href="http://blog.minidx.com/tag/%e6%9f%a5%e5%87%86%e7%8e%87/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.minidx.com</link>
	<description>中文Adobe Flex例子,Flex实例教程,RIA资源,全文检索技术,算法和数据结构</description>
	<lastBuildDate>Thu, 31 Mar 2011 03:22:33 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>&#8220;全文检索(full-text search)&#8221;和&#8220;搜索引擎(search engine)&#8221;的区别和联系</title>
		<link>http://blog.minidx.com/2008/01/03/340.html</link>
		<comments>http://blog.minidx.com/2008/01/03/340.html#comments</comments>
		<pubDate>Wed, 02 Jan 2008 16:02:41 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[PageRank]]></category>
		<category><![CDATA[倒排索引]]></category>
		<category><![CDATA[全文检索]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[反向索引]]></category>
		<category><![CDATA[查全率]]></category>
		<category><![CDATA[查准率]]></category>
		<category><![CDATA[符素解析]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[语根处理]]></category>
		<category><![CDATA[超链分析技术]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/01/03/340.html</guid>
		<description><![CDATA[ 本博客称之为“全文检索博客”，而不是“搜索引擎博客”，那么，“全文检索(full-text search)”和“搜索引擎(search engine)”的区别是什么？他们之间又存在着怎么样的联系？
由于Google等搜索引擎公司高速发展，使得“搜索引擎(search engine)”深入人心，使得在很多人心中，将Google，Baidu于搜索引擎划上了等号……让我们来深入了解一下这两个名词以及相关的概念吧。








●全文检索(full-text search)：
从文本或数据库中，不限定资料字段，自由地萃取出讯息的技术。
●搜索引擎(search engine)：
执行全文检索任务的程序，一般称作搜索引擎(search engine)，它将使用者随意输入的文字，试图从数据库中，找到符合的内容。
上面是来自百科全书的两个名词的解释。
目前一般用户理解的搜索引擎，通常是指自动从互联网搜集信息，经过一定整理以后，提供给用户进行查询的系统。互联网上的信息浩瀚万千，而且毫无秩序，所有的信息象汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为用户绘制一幅一目了然的信息地图，供用户随时查阅。其实还有桌面搜索引擎，网站站内搜索引擎等
对于英文，需要经过语根处理 (stemming)，符素解析(token parser)，分词(word segmentation)，索引(index)等处理后，才可以进行查询(Search/Query)，中文没有词形的变化，不需要语根处理 (stemming)，但是中文分词不像英文那样可以按照空格来划分，相对比较复杂，目前采用的技术比较普遍的是1-gram, 2-gram, N-gram。
索引(index)效率比较高的算法是反向索引（inverted index），通常也成为倒排索引。
搜索引擎处理的对象一般是文本(Text)，可以通过《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中的技术，对doc,xls等非文本文件进行文本抽取，但是这些都属于搜索引擎外围部件。
评测一个搜索引擎的好坏，查全率(recall rate)和查准率(precision)是两个非常重要的参数，互联网由于海量的信息量，所以有了Google PageRank和百度的中文搜索由超链分析技术，使得用户可以更加快速的找到自己需要的。
你可能还对下列文章感兴趣:搜索引擎之排序技术分析搜索引擎之中文分词(Chinese Word Segmentation)简介technorati.com认领贴顺便介绍一下technoratiMinidx.RC1.1的中日英版本下载数都已经超过1K了2009年第一次Google PR全面更新 ]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/01/03/340.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk
Page Caching using disk (enhanced)
Database Caching 2/13 queries in 0.035 seconds using disk
Object Caching 168/346 objects using disk

Served from: blog.minidx.com @ 2012-02-10 01:45:50 -->
