关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取500万的网页。
利用larbin,我们可以轻易的获取/确定单个网站的所有联结,甚至可以镜像一个网站;也可以用它建立url 列表群,例如针对所有的网页进行 url retrive后,进行xml的联结的获取。或者是 mp3,或者定制larbin,可以作为搜索引擎的信息的来源。
Continue reading “关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章”

viewzi.com,又一款华而不实的可视化搜索引擎

假如说之前的SearchMe.com尚且能给人一点惊讶(Searchme:very cool but I don’t think it will be useful)的感觉的话,那接下来的viewzi.com充其量最多只能说是一个没有经过大脑思考的跟风产品。在搜索的时候能有良好的体验固然是好事,但是假如结果无法让人一目了然,甚至看到的结果给人的第一感觉是找不到方向……那愿意使用的几个估计也是闲着实在没事情做了。人们使用搜索引擎初衷是为了找东西,所以需要在尽可能少的地方提供尽可能多的信息–这一点,目前的主流搜索引擎都做到了。创新固然是好事,但是忘记了根本的话,那所有的努力换来的也只不过一场徒劳而已。
Continue reading “viewzi.com,又一款华而不实的可视化搜索引擎”

Google,丢弃中文市场又有何妨?

google-logo自从互联网结束了门户时代,进入搜索引擎年代之后,在中国这片领土中,人们便不断的拿着Google于Baidu当作两个对手,不断的讨论着百度占据了多少市场份额,而Google的份额又少了多少,为此津津乐道,乐此不彼。不管从资金、技术、人才还是品牌,Baidu其实连给Google提鞋的资格都没有–哪怕Baidu在中国市场称雄称霸,那又如何?在关于百度(NASDAQ:BIDU)获得了“中国企业走出去”国家贡献奖的很有意思的一篇文章中就说过,Baidu的成功,也仅仅只能是在中国市场的成功。

Continue reading “Google,丢弃中文市场又有何妨?”

关于百度(NASDAQ:BIDU)获得了“中国企业走出去”国家贡献奖的很有意思的一篇文章

baidu在cnBeta上看到一篇关于百度的很有意思的文章, 之所以说写得很有意思,那是因为和前面的什么样软件才算是“世界级商业应用软件”? 中国用友软件开发研制的U9套件?一样,又是一篇本来想夸奖啥啥啥的文章,却因为作者认识上的缺陷,反而写成了一个靶子,让人往上面投石子。文章的原文在这里,就不全文转载了。下面是几点比较“搞笑”的地方,提取出来Show一下。

Continue reading “关于百度(NASDAQ:BIDU)获得了“中国企业走出去”国家贡献奖的很有意思的一篇文章”

利用Minidx Extract-Text Com组件封装类的实现

这个主要是为解决PP提出的频繁初始化Com时效率问题。很抱歉这其实并不是一个封装的类,例子中只是将ITextExtractor指针设为全局变量,一次初始化,多次重复使用而已 (注意按下File选择文件的时候每次用的都是同一个指针),最后在按下退出程序的时候释放。不过原理是一样的,例子中ITextExtractor的指针进行封装就可以了。

具体的封装大家可以自己根据需要去实现,前提条件是保持ITextExtractor指针不被改变就可以了. 由于CoCreateInstance的关系,建议封装为SingleTon模式。

Continue reading “利用Minidx Extract-Text Com组件封装类的实现”

Ntt.CC从Google沙盒(Sandbox)出来了

Ntt.CC进了Google的沙盒(Sandbox)中说到了Ntt.cc被Google关进了沙盒(Sandbox)labs,导致访问量一下子从“天上”掉到“地下”,来自Google的访问量几乎降到了个位数。查了很多相关的文章,包括国外的很多SEOer们都提到说至少需要被关6个月左右(不清楚沙盒是什么的可以自己google一下)。

Continue reading “Ntt.CC从Google沙盒(Sandbox)出来了”

搜索引擎之排序技术分析

Graph-48x48 什么是排序技术

所谓的排序技术,我们可以简单的理解为曝光率,谁出现的次数最多,谁排在前面。要谈到排序技术,就不得不说Google的PageRank,而提到PageRank,则我们需要先来了解一下一种称为HillTop的排序算法。

Continue reading “搜索引擎之排序技术分析”

全文检索博客也被Google惩罚了?

delete-user-48x48

在《Google的PR开始了2008年的第一次更新》中提到了2008年的第一次PR已经开始更新了,minidx.com的一些新开的二级域名有了2的PR,但是Google网站管理员工具中显示PR最高的http://blog.minidx.com却一直都是0,据说PR更新一般会需要1个星期时间才可以完全更新完。无意中打开自己的一篇《关于PFSVODDATA文件或者文件夹》,发现这个单篇文章的PR值居然是2。

Continue reading “全文检索博客也被Google惩罚了?”

利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC Demo

folder-find-48x48利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中具体的说明了Vb.Net中调用Minidx Extract-Text Com组件对Word,Excel,Pdf等各种文件进行文本抽取的用法。结果很多人都发邮件过来询问C++中如何调用(一些邮件会被Gmail判断为垃圾邮件……强烈建议有问题直接在本文后面留言或在这里提问,这样也可以减轻一点我的工作量,不必挨个回复)。抽空作了一个VC的Demo,工程用VS2005创建的,Unicode版本。下面对Demo稍微做一些说明,一些基本原理直接参照《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》就可以了,这里不再重复。

Continue reading “利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC Demo”

世界各地主流,非主流搜索引擎以及功能性搜索引擎一览

web-search-48x48 提到搜索引擎,估计一般人条件反射的就会跳出Google,Yahoo,百度……其实世界各地还有很多互联网的搜索引擎,稍微整理了一个列表,Thumbnail的网页快照好像不是都可以抓到,所以也就不去一一抓取了。下面文中部分相关说明来自维基百科,很可惜众所周知的原因好东西大陆网民是无法享受的。

Continue reading “世界各地主流,非主流搜索引擎以及功能性搜索引擎一览”

搜索引擎之中文分词(Chinese Word Segmentation)简介

word-segment 在《“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系》中我们提及到了中文分词,以及《双数组Trie(Double Array Trie)实现原理的一点剖析》中阐述了高效率中文分词的实现。接下来让我们抛开双数组Trie的那些公式,从概念上来了解一下分词技术,因为英文分词相对比较简单,这里主要来了解的是中文分词。

英文是以词为单位的,词与词之间上靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,翻译成“我是一个学生”。计算机可以很简单的通过空格知道student是一个单词,但是“学”,“生”假如分开来,计算机是无法理解的。必须把他们合在一起才变得有意义。把中文的汉字序列切分成有意义的词,就是中文分词。再比如“研究生命”,可以划分为“研究生/命”,也可以是“研究/生命”,假如是人脑可以很明显的判断出这里后者的划分更加的确切,但是计算机要做到这一点却是相当的困难。

现有的分词算法有3种:基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。

Continue reading “搜索引擎之中文分词(Chinese Word Segmentation)简介”

“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系

150px-Web_search 本博客称之为“全文检索博客”,而不是“搜索引擎博客”,那么,“全文检索(full-text search)”和“搜索引擎(search engine)”的区别是什么?他们之间又存在着怎么样的联系?

由于Google等搜索引擎公司高速发展,使得“搜索引擎(search engine)”深入人心,使得在很多人心中,将Google,Baidu于搜索引擎划上了等号……让我们来深入了解一下这两个名词以及相关的概念吧。

Continue reading ““全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系”

利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容

不少人对Google,Baidu等搜索引擎可以“找到”你放在服务器上的Word的Doc,Excel的xls以及Pdf等各种文件而感到惊叹不已,也有不少人发来邮件询问我Minidx文件管理器中从各种格式的文件中读取文本内容是如何实现的。Linux平台实现起来比较复杂一些,不过对于Windows用户来说,其实利用微软Ifilter的Indexing service接口,可以比较容易的实现上面的功能。Minidx支持200多种文件格式,其实也是利用了Ifilter的接口。实现的基本原理,就是写一个Com组件,去查找系统中相应文件格式的API接口所在的Dll路径,然后调用抽取文本。

Continue reading “利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容”

technorati.com认领贴顺便介绍一下technorati

Add to Technorati Favoritestechnorati是世界著名的一个搜索引擎,用来搜索blog内容。关键字搜索,tags搜索和引用链接搜索是technorati的主打功能。blogger可以利用它让更多人来访问blog文章。technorati使用完善的搜索功能,强大的数据处理引擎,通过一种索引机制,让你可以方便的提交文章,你只需要在自己文章中作些标记,technorati自动会将你的文章和你标记的tags放到他的可以查询的数据库里面。 Continue reading “technorati.com认领贴顺便介绍一下technorati”