<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>中文Flex例子 &#187; 索引</title>
	<atom:link href="http://blog.minidx.com/tag/%e7%b4%a2%e5%bc%95/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.minidx.com</link>
	<description>中文Adobe Flex例子,Flex实例教程,RIA资源,全文检索技术,算法和数据结构</description>
	<lastBuildDate>Thu, 31 Mar 2011 03:22:33 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>&#8220;全文检索(full-text search)&#8221;和&#8220;搜索引擎(search engine)&#8221;的区别和联系</title>
		<link>http://blog.minidx.com/2008/01/03/340.html</link>
		<comments>http://blog.minidx.com/2008/01/03/340.html#comments</comments>
		<pubDate>Wed, 02 Jan 2008 16:02:41 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[PageRank]]></category>
		<category><![CDATA[倒排索引]]></category>
		<category><![CDATA[全文检索]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[反向索引]]></category>
		<category><![CDATA[查全率]]></category>
		<category><![CDATA[查准率]]></category>
		<category><![CDATA[符素解析]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[语根处理]]></category>
		<category><![CDATA[超链分析技术]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/01/03/340.html</guid>
		<description><![CDATA[ 本博客称之为“全文检索博客”，而不是“搜索引擎博客”，那么，“全文检索(full-text search)”和“搜索引擎(search engine)”的区别是什么？他们之间又存在着怎么样的联系？
由于Google等搜索引擎公司高速发展，使得“搜索引擎(search engine)”深入人心，使得在很多人心中，将Google，Baidu于搜索引擎划上了等号……让我们来深入了解一下这两个名词以及相关的概念吧。








●全文检索(full-text search)：
从文本或数据库中，不限定资料字段，自由地萃取出讯息的技术。
●搜索引擎(search engine)：
执行全文检索任务的程序，一般称作搜索引擎(search engine)，它将使用者随意输入的文字，试图从数据库中，找到符合的内容。
上面是来自百科全书的两个名词的解释。
目前一般用户理解的搜索引擎，通常是指自动从互联网搜集信息，经过一定整理以后，提供给用户进行查询的系统。互联网上的信息浩瀚万千，而且毫无秩序，所有的信息象汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为用户绘制一幅一目了然的信息地图，供用户随时查阅。其实还有桌面搜索引擎，网站站内搜索引擎等
对于英文，需要经过语根处理 (stemming)，符素解析(token parser)，分词(word segmentation)，索引(index)等处理后，才可以进行查询(Search/Query)，中文没有词形的变化，不需要语根处理 (stemming)，但是中文分词不像英文那样可以按照空格来划分，相对比较复杂，目前采用的技术比较普遍的是1-gram, 2-gram, N-gram。
索引(index)效率比较高的算法是反向索引（inverted index），通常也成为倒排索引。
搜索引擎处理的对象一般是文本(Text)，可以通过《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中的技术，对doc,xls等非文本文件进行文本抽取，但是这些都属于搜索引擎外围部件。
评测一个搜索引擎的好坏，查全率(recall rate)和查准率(precision)是两个非常重要的参数，互联网由于海量的信息量，所以有了Google PageRank和百度的中文搜索由超链分析技术，使得用户可以更加快速的找到自己需要的。
你可能还对下列文章感兴趣:搜索引擎之排序技术分析搜索引擎之中文分词(Chinese Word Segmentation)简介technorati.com认领贴顺便介绍一下technoratiMinidx.RC1.1的中日英版本下载数都已经超过1K了2009年第一次Google PR全面更新 ]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/01/03/340.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>technorati.com认领贴顺便介绍一下technorati</title>
		<link>http://blog.minidx.com/2007/12/26/310.html</link>
		<comments>http://blog.minidx.com/2007/12/26/310.html#comments</comments>
		<pubDate>Wed, 26 Dec 2007 14:16:24 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[网络资源]]></category>
		<category><![CDATA[tags搜索]]></category>
		<category><![CDATA[technorati]]></category>
		<category><![CDATA[Technorati Authority]]></category>
		<category><![CDATA[Technorati Rank]]></category>
		<category><![CDATA[关键字搜索]]></category>
		<category><![CDATA[博客]]></category>
		<category><![CDATA[引用链接搜索]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[链接搜索]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2007/12/26/310.html</guid>
		<description><![CDATA[technorati是世界著名的一个搜索引擎，用来搜索blog内容。关键字搜索，tags搜索和引用链接搜索是technorati的主打功能。blogger可以利用它让更多人来访问blog文章。technorati使用完善的搜索功能，强大的数据处理引擎，通过一种索引机制，让你可以方便的提交文章，你只需要在自己文章中作些标记，technorati自动会将你的文章和你标记的tags放到他的可以查询的数据库里面。








Technorati权威度和Technorati排名（Technorati Rank）是两个比较重要的参数,国外很多付费评论的参考之一就是这两个参数.
Technorati权威度（Technorati Authority）：是指过去六个月内提到该博客的网站数量，数值越高，则Technorati权威度就越高。衡量Technorati权威度关键在于外部链接网站的数量，而不是外部链接的数量。如果一个博客链接你博客很多个链接，那么Technorati只会当作一次来计算。
Technorati排名（Technorati Rank）：是以Technorati权威度大小进行排名的名次，Technorati权威度最高排名第一位，Technorati排名数字越小，表明与第一名的差距越小。对于相同Technorati权威度的博客，其排名也是相同的。
使用WordPress的一个好处就是可以自动被technorati索引 ~下面是全文检索博客的Technorati认领

Add to Technorati Favorites
Technorati Profile
你可能还对下列文章感兴趣:&#8220;全文检索(full-text search)&#8221;和&#8220;搜索引擎(search engine)&#8221;的区别和联系关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章viewzi.com，又一款华而不实的可视化搜索引擎2008年4月最后一天PR开始再次更新Google,丢弃中文市场又有何妨？]]></description>
		<wfw:commentRss>http://blog.minidx.com/2007/12/26/310.html/feed</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk
Page Caching using disk (enhanced)
Database Caching 2/18 queries in 0.020 seconds using disk
Object Caching 241/491 objects using disk

Served from: blog.minidx.com @ 2012-02-10 00:56:23 -->
