搜索引擎之排序技术分析

Graph-48x48 什么是排序技术

所谓的排序技术,我们可以简单的理解为曝光率,谁出现的次数最多,谁排在前面。要谈到排序技术,就不得不说Google的PageRank,而提到PageRank,则我们需要先来了解一下一种称为HillTop的排序算法。


PageRank技术:通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。

PageRank的思想,链接的重要度整体加重了网站的权重,而网站的权重又反过来影响内部链接的排名。而HillTop算法(也被称为“专家系统”,由Krishna Bharat和George A. Mihaila提出),则是以Dan Thiesw为首的TSPR(Topic-Sensitive-PageRank:主题性页面级别技术)理论。相比PageRank算法,HillTop更强调了内容的相关性,也就是我们常说的“粘性”,“黏度”,而非网站权重,这样避免了可能转贴的权重较高的站点(比如门户站点)比原创作者站点排名还要靠前的问题。那么,到底

什么是Hilltop算法

Bharat提出:在利用”页面等级”来寻找”权威”网页时,不应单纯依赖于值的大小来定夺,而应将重点放在它与查询主题的相关性上;即不但需要考虑网页的页面等级,还要考虑该网页的页面等级与查询主题的相关性是否相称。若一个网页只与查询主题只沾点边,那么即使其页面等级非常之高,对用户来说也是没有意义的。如此一来,于网页而言,那些来自于”相关主题”的文档的链接就更有意义了 (Bharat称这种”相关主题”文档为”专家文档”),一个网页的所有外部”专家文档”链接构成了该网页的”权威性值”。Hilltop算法的意义在于:相同主题网站之间的链接应比非相关网站的链接具有更高的价值。

其实GOOLE早在几年前已经开始混合使用HiilTop和PageRank算法共同确定搜索结果排名了,通过HiilTop的方法,计算来自描述相同主题的相关文档的链接对于搜索者的价值会更大(即相同主题网站之间的链接比不相关网站的链接价值要更大),正是由于HiilTop的影响,这也是我们看到即使各项指标(被收录链接数量,反向链接,访问量等)都非常不错的门户类网站PR很难达到7以上,而专业性的站点却非常容易就达到7,甚至有一大批的都达到了9(注:这里的PR指的是Google综合结果通过Google 工具条显示的结果,而并非上面的PageRank值)。

Hilltop算法的不足

Hilltop的前提是每个专家文件都是完全公正的,且无欺骗和人工操纵成分。专家文件的一个小小污点就可以对排名产生极大的负面影响。

●运行Hilltop算法需要大量的计算机处理能力,像Google的成千上万台服务器集群可以轻松的实现,但是对于一般的企业级用户,服务器就未必具有这样的处理能力。

排名所采用的相关技术

●词干技术(stemming)

Google等各搜索引擎中,目前都已经采用了词干技术(stemming) 。最早的搜索引擎,如果搜索一个单数查询条件如”live”,则搜索结果中不会出现如”lives”,”living”这样的关键词变化形式,反之亦然。对于搜索引擎的用户来说,这种特性是一件好事情,因为搜索提供的结果更多了,但站在搜索引擎商业用户来说,那就意味着需要多购买一些关键词,这个也体现了技术的进步在商业中的价值。

●拼写纠错

拼写检查和上面的词干技术一样,也已经被应用于搜索结果中。例如,当输入查询条件为”Search Engine Optimisation”后,以往Google只会提示你是否是要找”Search Engine Optimization”,但显示的还是符合”Optimisation”的搜索结果。不过现在则能看到”Optimization”的搜索结果。

这两项处理其实都是在分词阶段完成的。 

排名的商业价值

排名在商业中的价值,在互联网蓬勃发展的今天,已经得到了充分的体现。2003年Google大规模调整算法的时候就引来了种种传言和猜测 :

  • 开始使用词典对号入座;
  • 意图施压使商业站点使用Adwords广告服务;
  • 开始使用”基于贝叶斯定理的SPAM过滤系统” ;
  • 开始处罚互惠链接,”优化”网页,或”链接文本” ;

众多猜测中,”Google意图施压使商业站点使用Adwords广告服务”显然占了上风。许多搜索引擎优化分析家都认为:Google通过一个保密的过滤系统”黑名单”来对商业网站进行筛选,从而达到上述目的。虽然这都紧紧是一些猜测,但是这样的传言和猜测,恰恰反应了排名的重要商业价值。 

参考资料:
・The Google Hilltop Algorithm
http://www.rankforsales.com/search-engine-algorithms/google-hilltop-algorithm.html
・Hilltop: A Search Engine based on Expert Documents
ftp://ftp.cs.toronto.edu/pub/reports/csri/405/hilltop.html

22 thoughts on “搜索引擎之排序技术分析”

  1. 评论提交后,评论框里面的内容怎么不能还原,是页面没有刷新的缘故么,那怎么不写个程序自动清空呢,不然容易让人产生没有发出去的错觉,导致重复评论啊

  2. @sofish
    呵呵,其实对于想做SEO的人来说,应该会有一点用处。
    目前Google就增加了Hilltop算法的权重,也就是说,Google增加了内容的比重,而同时减少了链接的权重,网站内部的黏度将越来越重要。

  3. 现在Google对内容原创性增加了权重,从后台数据来看几个关键字每个每天都可以带来几十个IP的访问量,这样的关键字增加到几十个,甚至几百个的话,那样应该不用愁没有访问量了吧。呵呵

  4. 我设置了自动邮件发送,所以每天都可以收到Google统计报告,有时间就看一下,没时间就直接存档~
    leo你的“专注”关联性不是做的很不错呢?专门独立的域名做专门的领域的内容,不像我的什么都往这上面丢……其实leo的作法还是非常不错的!~

  5. 虽然仅仅是一个皮的问题,不过有时还是很让人头疼的,,我的模板就找了两天多,还好,功夫不负有心人啊,,哈哈,现在用的那个我很喜欢,这个模板也挺清新的,不过就是最近人用的挺多的。

  6. @z.Yleo77
    找了两天就找到自己很喜欢的,很不错了~~~
    我一直都没有找到满意的,不同的模板都会有不同的问题…这个模板看起来比较漂亮,缺点就是宽度都被固定了,需要花时间调整为百分比,可以适应各种分辨率

  7. @YangTx
    其实这些都不重要,内容才是最最重要的.Hilltop算法就是根据你的内容来判断重要性

    @z.Yleo77
    那也很值得啊,可惜我没那么多时间,否则我也花上那么个几天专门找模板,呵呵

  8. 很赞同你的一种做法:一些关键字一天能带来几十个ip,做这个能带流量的关键字几十个,呵呵,流量自然就有了

  9. 排名算法很多!不同应用场景不同的算法,长期热门查询,长尾查询,突发性热门查询,都是不同算法,现在基本上是查询相关性的算法,否则搜索结果很容易被控制!

Leave a Reply

Your email address will not be published. Required fields are marked *