<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>中文Flex例子 &#187; PageRank</title>
	<atom:link href="http://blog.minidx.com/tag/pagerank/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.minidx.com</link>
	<description>中文Adobe Flex例子,Flex实例教程,RIA资源,全文检索技术,算法和数据结构</description>
	<lastBuildDate>Thu, 31 Mar 2011 03:22:33 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>2009年第一次Google PR全面更新</title>
		<link>http://blog.minidx.com/2009/04/02/2337.html</link>
		<comments>http://blog.minidx.com/2009/04/02/2337.html#comments</comments>
		<pubDate>Thu, 02 Apr 2009 04:26:05 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[随便写写]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[PageRank]]></category>
		<category><![CDATA[PR]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/?p=2337</guid>
		<description><![CDATA[继2009年3月底PR开始更新部分更新后，今天Google PR已经全面开始更新，并且基本已经处于稳定状态。老站基本上都没什么变化，大致可以判断这次PR的更新，参数并没有进行什么大的调整。倒是Google.co.jp，由于付费链接不久前从9降到了5。
关于PageRank，可以参考这里的详细说明：搜索引擎之排序技术分析
你可能还对下列文章感兴趣:2008年最后一次（12月）PR更新了Google PR又更新了PR更新，只剩下一个PR7了，应该是第5次了吧，这个乱的啊……2008年Google PR第三次更新比较郁闷的几件事情&#8211;单篇文章的PR居然和首页一样高&#8230;&#8230;]]></description>
		<wfw:commentRss>http://blog.minidx.com/2009/04/02/2337.html/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>2008年最后一次（12月）PR更新了</title>
		<link>http://blog.minidx.com/2008/12/31/1849.html</link>
		<comments>http://blog.minidx.com/2008/12/31/1849.html#comments</comments>
		<pubDate>Wed, 31 Dec 2008 02:59:29 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[随便写写]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[PageRank]]></category>
		<category><![CDATA[PR]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/?p=1849</guid>
		<description><![CDATA[突然间发现访问一些网站时浏览器上的绿色有了变化，才注意到Google的PR，2008年的最后一次更新已经在进行中了。有消息说30日早上就已经开始更新，不过可能是我没怎么留意，结果到今天早上才注意到。粗略的浏览了一下自己的几个网站，基本没什么变化，只是新站都被赋予了PR而已。也可能是正在更新中的缘故吧，具体这次的影响以及更新方向，有待于进一步观察。








知识点：PageRank 是 Google 的一项专利技术，Google 使用 PageRank 技术检查整个网络链接结构，并确定哪些网页重要性最高。然后进行超文本匹配分析，以确定哪些网页与正在执行的特定搜索相关。
你可能还对下列文章感兴趣:2009年第一次Google PR全面更新 Google PR又更新了PR更新，只剩下一个PR7了，应该是第5次了吧，这个乱的啊……2008年Google PR第三次更新比较郁闷的几件事情&#8211;单篇文章的PR居然和首页一样高&#8230;&#8230;]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/12/31/1849.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>搜索引擎之排序技术分析</title>
		<link>http://blog.minidx.com/2008/01/14/426.html</link>
		<comments>http://blog.minidx.com/2008/01/14/426.html#comments</comments>
		<pubDate>Mon, 14 Jan 2008 14:25:48 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[Hilltop]]></category>
		<category><![CDATA[PageRank]]></category>
		<category><![CDATA[stemming]]></category>
		<category><![CDATA[专家系统]]></category>
		<category><![CDATA[拼写纠错]]></category>
		<category><![CDATA[排序技术]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/01/14/426.html</guid>
		<description><![CDATA[ 什么是排序技术
所谓的排序技术，我们可以简单的理解为曝光率，谁出现的次数最多，谁排在前面。要谈到排序技术，就不得不说Google的PageRank，而提到PageRank，则我们需要先来了解一下一种称为HillTop的排序算法。








PageRank技术：通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算，PageRank能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量，而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页B 所投的一票。这样，PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。
PageRank的思想，链接的重要度整体加重了网站的权重，而网站的权重又反过来影响内部链接的排名。而HillTop算法（也被称为“专家系统”，由Krishna Bharat和George A. Mihaila提出），则是以Dan Thiesw为首的TSPR(Topic-Sensitive-PageRank：主题性页面级别技术)理论。相比PageRank算法，HillTop更强调了内容的相关性，也就是我们常说的“粘性”，“黏度”，而非网站权重，这样避免了可能转贴的权重较高的站点（比如门户站点）比原创作者站点排名还要靠前的问题。那么，到底
什么是Hilltop算法
Bharat提出：在利用&#8221;页面等级&#8221;来寻找&#8221;权威&#8221;网页时，不应单纯依赖于值的大小来定夺，而应将重点放在它与查询主题的相关性上；即不但需要考虑网页的页面等级，还要考虑该网页的页面等级与查询主题的相关性是否相称。若一个网页只与查询主题只沾点边，那么即使其页面等级非常之高，对用户来说也是没有意义的。如此一来，于网页而言，那些来自于&#8221;相关主题&#8221;的文档的链接就更有意义了 (Bharat称这种&#8221;相关主题&#8221;文档为&#8221;专家文档&#8221;)，一个网页的所有外部&#8221;专家文档&#8221;链接构成了该网页的&#8221;权威性值&#8221;。Hilltop算法的意义在于：相同主题网站之间的链接应比非相关网站的链接具有更高的价值。 
其实GOOLE早在几年前已经开始混合使用HiilTop和PageRank算法共同确定搜索结果排名了，通过HiilTop的方法，计算来自描述相同主题的相关文档的链接对于搜索者的价值会更大（即相同主题网站之间的链接比不相关网站的链接价值要更大），正是由于HiilTop的影响，这也是我们看到即使各项指标（被收录链接数量，反向链接，访问量等）都非常不错的门户类网站PR很难达到7以上，而专业性的站点却非常容易就达到7，甚至有一大批的都达到了9（注：这里的PR指的是Google综合结果通过Google 工具条显示的结果，而并非上面的PageRank值）。
Hilltop算法的不足
●Hilltop的前提是每个专家文件都是完全公正的，且无欺骗和人工操纵成分。专家文件的一个小小污点就可以对排名产生极大的负面影响。
●运行Hilltop算法需要大量的计算机处理能力，像Google的成千上万台服务器集群可以轻松的实现，但是对于一般的企业级用户，服务器就未必具有这样的处理能力。
排名所采用的相关技术
●词干技术(stemming)
Google等各搜索引擎中，目前都已经采用了词干技术(stemming) 。最早的搜索引擎，如果搜索一个单数查询条件如&#8221;live&#8221;，则搜索结果中不会出现如&#8221;lives&#8221;，&#8221;living&#8221;这样的关键词变化形式，反之亦然。对于搜索引擎的用户来说，这种特性是一件好事情，因为搜索提供的结果更多了，但站在搜索引擎商业用户来说，那就意味着需要多购买一些关键词，这个也体现了技术的进步在商业中的价值。
●拼写纠错
拼写检查和上面的词干技术一样，也已经被应用于搜索结果中。例如，当输入查询条件为&#8221;Search Engine Optimisation&#8221;后，以往Google只会提示你是否是要找&#8221;Search Engine Optimization&#8221;，但显示的还是符合&#8221;Optimisation&#8221;的搜索结果。不过现在则能看到&#8221;Optimization&#8221;的搜索结果。
这两项处理其实都是在分词阶段完成的。&#160;
排名的商业价值
排名在商业中的价值，在互联网蓬勃发展的今天，已经得到了充分的体现。2003年Google大规模调整算法的时候就引来了种种传言和猜测 ：

开始使用词典对号入座；
意图施压使商业站点使用Adwords广告服务；
开始使用&#8221;基于贝叶斯定理的SPAM过滤系统&#8221; ；
开始处罚互惠链接，&#8221;优化&#8221;网页，或&#8221;链接文本&#8221; ； 

众多猜测中，&#8221;Google意图施压使商业站点使用Adwords广告服务&#8221;显然占了上风。许多搜索引擎优化分析家都认为：Google通过一个保密的过滤系统&#8221;黑名单&#8221;来对商业网站进行筛选，从而达到上述目的。虽然这都紧紧是一些猜测，但是这样的传言和猜测，恰恰反应了排名的重要商业价值。&#160;
参考资料：・The Google Hilltop Algorithmhttp://www.rankforsales.com/search-engine-algorithms/google-hilltop-algorithm.html・Hilltop: A Search Engine based on Expert Documentsftp://ftp.cs.toronto.edu/pub/reports/csri/405/hilltop.html
你可能还对下列文章感兴趣:&#8220;全文检索(full-text search)&#8221;和&#8220;搜索引擎(search engine)&#8221;的区别和联系2009年第一次Google PR全面更新 关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章2008年最后一次（12月）PR更新了viewzi.com，又一款华而不实的可视化搜索引擎]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/01/14/426.html/feed</wfw:commentRss>
		<slash:comments>22</slash:comments>
		</item>
		<item>
		<title>&#8220;全文检索(full-text search)&#8221;和&#8220;搜索引擎(search engine)&#8221;的区别和联系</title>
		<link>http://blog.minidx.com/2008/01/03/340.html</link>
		<comments>http://blog.minidx.com/2008/01/03/340.html#comments</comments>
		<pubDate>Wed, 02 Jan 2008 16:02:41 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[PageRank]]></category>
		<category><![CDATA[倒排索引]]></category>
		<category><![CDATA[全文检索]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[反向索引]]></category>
		<category><![CDATA[查全率]]></category>
		<category><![CDATA[查准率]]></category>
		<category><![CDATA[符素解析]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[语根处理]]></category>
		<category><![CDATA[超链分析技术]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/01/03/340.html</guid>
		<description><![CDATA[ 本博客称之为“全文检索博客”，而不是“搜索引擎博客”，那么，“全文检索(full-text search)”和“搜索引擎(search engine)”的区别是什么？他们之间又存在着怎么样的联系？
由于Google等搜索引擎公司高速发展，使得“搜索引擎(search engine)”深入人心，使得在很多人心中，将Google，Baidu于搜索引擎划上了等号……让我们来深入了解一下这两个名词以及相关的概念吧。








●全文检索(full-text search)：
从文本或数据库中，不限定资料字段，自由地萃取出讯息的技术。
●搜索引擎(search engine)：
执行全文检索任务的程序，一般称作搜索引擎(search engine)，它将使用者随意输入的文字，试图从数据库中，找到符合的内容。
上面是来自百科全书的两个名词的解释。
目前一般用户理解的搜索引擎，通常是指自动从互联网搜集信息，经过一定整理以后，提供给用户进行查询的系统。互联网上的信息浩瀚万千，而且毫无秩序，所有的信息象汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为用户绘制一幅一目了然的信息地图，供用户随时查阅。其实还有桌面搜索引擎，网站站内搜索引擎等
对于英文，需要经过语根处理 (stemming)，符素解析(token parser)，分词(word segmentation)，索引(index)等处理后，才可以进行查询(Search/Query)，中文没有词形的变化，不需要语根处理 (stemming)，但是中文分词不像英文那样可以按照空格来划分，相对比较复杂，目前采用的技术比较普遍的是1-gram, 2-gram, N-gram。
索引(index)效率比较高的算法是反向索引（inverted index），通常也成为倒排索引。
搜索引擎处理的对象一般是文本(Text)，可以通过《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中的技术，对doc,xls等非文本文件进行文本抽取，但是这些都属于搜索引擎外围部件。
评测一个搜索引擎的好坏，查全率(recall rate)和查准率(precision)是两个非常重要的参数，互联网由于海量的信息量，所以有了Google PageRank和百度的中文搜索由超链分析技术，使得用户可以更加快速的找到自己需要的。
你可能还对下列文章感兴趣:搜索引擎之排序技术分析搜索引擎之中文分词(Chinese Word Segmentation)简介technorati.com认领贴顺便介绍一下technoratiMinidx.RC1.1的中日英版本下载数都已经超过1K了2009年第一次Google PR全面更新 ]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/01/03/340.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk
Page Caching using disk (enhanced)
Database Caching 2/24 queries in 0.029 seconds using disk
Object Caching 363/707 objects using disk

Served from: blog.minidx.com @ 2012-02-09 19:12:51 -->
