关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取500万的网页。
利用larbin,我们可以轻易的获取/确定单个网站的所有联结,甚至可以镜像一个网站;也可以用它建立url 列表群,例如针对所有的网页进行 url retrive后,进行xml的联结的获取。或者是 mp3,或者定制larbin,可以作为搜索引擎的信息的来源。
Continue reading “关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章”

GBK和BIG5中汉字编码的第一位和第二位的范围

GBK和BIG5都是双字节字符,也就是用两个位符来表示一个汉字。要判断是否汉字,就必须知道它的有效范围,下面是第一个位和第二个位的有效范围:
Continue reading “GBK和BIG5中汉字编码的第一位和第二位的范围”

GBK,BIG5等字符集编码范围的具体说明

通过前面的 关于计算机中Endian(big-edian和little-endian)存储机制的由来、特点和区别一篇关于Unicode编码的UCS、UTF、BMP、BOM等概念的不错的文章 这两篇文章,读过之后应该对字符编码有一个比较深刻地了解,不过这个世界是有很多个说着不同语言的国家组成的,在追求国际化的同时,更多的是要求本土化,所以很多计算机软件系统应用的是本土的语言编码,而不是通用的UTF8等。各自的编码都有一定的范围,下面的文章对字符集和编码的概念,以及一些常用编码的范围进行了非常详细地说明,做相关方面工作的可要收藏了。
Continue reading “GBK,BIG5等字符集编码范围的具体说明”

一篇关于Unicode编码的UCS、UTF、BMP、BOM等概念的不错的文章

由于要做一些中文话的工作,牵涉到中文的GB2312,GBK,Big5以及Unicode之类的编码,找了一些资料发现下面这篇写的还是相当不错的。很可惜好文章总是很有“中文特色”,一搜一大把同样的文章,转来转去已经找不到原始出处了。作者看到的话(或者哪位知道的话),还请好心告知。下面是文章内容:
Continue reading “一篇关于Unicode编码的UCS、UTF、BMP、BOM等概念的不错的文章”

关于计算机中Endian(big-edian和little-endian)存储机制的由来、特点和区别

有人问起Endian是什么,告诉他就是计算机中是“大尾”还是“小尾”, Little-Endian,就是我们在学习汇编时候的高高低低原则,而Bit-Endian就是刚刚相反,Little-Endian主要用在我们现在的PC的CPU中,Big-Endian则应用在目前的Mac机器中(注意:是指Power系列 处理器)……费了一些口舌,依旧一幅茫然的样子……于是放弃,Google了一下,找到下面这篇论文,原先作者已经无从考究了,那位知道的话还请麻烦告知。说起来Endian除了在一些底层内核模块中,一般开发中倒也用不到(当然,对于搜索引擎核心模块,这是不得不考虑的)。
先看下面这段小故事,可以帮助我们理解Endian:

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开,由此曾发生过六次叛乱,其中一个皇帝送了命,另一个丢了王位。
我们一般将endian翻译成“字节序”,将big endian和little endian称作“大尾”和“小尾”。

Continue reading “关于计算机中Endian(big-edian和little-endian)存储机制的由来、特点和区别”

Ntt.CC从Google沙盒(Sandbox)出来了

Ntt.CC进了Google的沙盒(Sandbox)中说到了Ntt.cc被Google关进了沙盒(Sandbox)labs,导致访问量一下子从“天上”掉到“地下”,来自Google的访问量几乎降到了个位数。查了很多相关的文章,包括国外的很多SEOer们都提到说至少需要被关6个月左右(不清楚沙盒是什么的可以自己google一下)。

Continue reading “Ntt.CC从Google沙盒(Sandbox)出来了”

搜索引擎之排序技术分析

Graph-48x48 什么是排序技术

所谓的排序技术,我们可以简单的理解为曝光率,谁出现的次数最多,谁排在前面。要谈到排序技术,就不得不说Google的PageRank,而提到PageRank,则我们需要先来了解一下一种称为HillTop的排序算法。

Continue reading “搜索引擎之排序技术分析”

世界各地主流,非主流搜索引擎以及功能性搜索引擎一览

web-search-48x48 提到搜索引擎,估计一般人条件反射的就会跳出Google,Yahoo,百度……其实世界各地还有很多互联网的搜索引擎,稍微整理了一个列表,Thumbnail的网页快照好像不是都可以抓到,所以也就不去一一抓取了。下面文中部分相关说明来自维基百科,很可惜众所周知的原因好东西大陆网民是无法享受的。

Continue reading “世界各地主流,非主流搜索引擎以及功能性搜索引擎一览”

搜索引擎之中文分词(Chinese Word Segmentation)简介

word-segment 在《“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系》中我们提及到了中文分词,以及《双数组Trie(Double Array Trie)实现原理的一点剖析》中阐述了高效率中文分词的实现。接下来让我们抛开双数组Trie的那些公式,从概念上来了解一下分词技术,因为英文分词相对比较简单,这里主要来了解的是中文分词。

英文是以词为单位的,词与词之间上靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,翻译成“我是一个学生”。计算机可以很简单的通过空格知道student是一个单词,但是“学”,“生”假如分开来,计算机是无法理解的。必须把他们合在一起才变得有意义。把中文的汉字序列切分成有意义的词,就是中文分词。再比如“研究生命”,可以划分为“研究生/命”,也可以是“研究/生命”,假如是人脑可以很明显的判断出这里后者的划分更加的确切,但是计算机要做到这一点却是相当的困难。

现有的分词算法有3种:基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。

Continue reading “搜索引擎之中文分词(Chinese Word Segmentation)简介”

“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系

150px-Web_search 本博客称之为“全文检索博客”,而不是“搜索引擎博客”,那么,“全文检索(full-text search)”和“搜索引擎(search engine)”的区别是什么?他们之间又存在着怎么样的联系?

由于Google等搜索引擎公司高速发展,使得“搜索引擎(search engine)”深入人心,使得在很多人心中,将Google,Baidu于搜索引擎划上了等号……让我们来深入了解一下这两个名词以及相关的概念吧。

Continue reading ““全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系”

浅谈图片搜索引擎的实现

is leo在他的《博客营销》中说不清楚全文检索博客的领域是什么,呵呵,整个Minidx.com其实都只不过是一个自己随便涂鸦的地方,倒还真没考虑过什么领域,更加没有考虑过自己的博客应该专注于哪一方面……如果非要划分,大概http://minidx.com勉强还能算得上一点“领域”吧。呵呵,无所谓了,随便涂鸦吧……OODA SAN说他在研究图片搜索引擎,所以就和他探讨了一些图片搜索的实现的问题,这里也记录一下自己的思路,OODA是这方面的专家,而我只能算是“新手上路”,下面说的有什么不对的还望包涵指出,:)

简单的说,图片搜索是搜索引擎针对网络上的图片所提供的服务。包括Google, Yahoo!, Ask, MSNAOL以及国内的Baidu这些大型搜索引擎都提供有图片搜索,还有号称图片搜索专用的picsearch,但它们并非真正地对文件中的图像进行搜索,而是对附加在图片中的文字(比如img标签的alt属性)以及文件名进行搜索,也就是通常意义上的关键字索引,所以实质上用的还是基于文本内容的检索,因此也只能搜索数量较少的文件,IBM 公司的研究人员也曾经开发一种名为Marvel的可以实现音像资料搜索的搜索引擎,它能够获取目前在互联网上很难获取的音像资料,只是没有关注过目前的进展。目前微软也正在研究可以通过头像来查找某人的信息这样的搜索引擎,微软将之成为Photo2Search,“a picture is worth a thousand words”,真正意义上的多媒体搜索引擎的实现,带给人们的影响,将可以与蒸汽机,电脑相媲美……

Continue reading “浅谈图片搜索引擎的实现”

靠搜索引擎带来流量的网站的大忌

在《文章中的关键字带来的意外点击》曾经提到过因为删除了一个该域名下的论坛,导致原先被搜索引擎收录的3000多页面出现404错误,并且忍痛抛弃了原先有PR的地址起用了全文检索博客的子域名……之前的表现是google,百度对这个域名的收录都变得非常小心。

Continue reading “靠搜索引擎带来流量的网站的大忌”

文章中的关键字带来的意外点击

这个blog里放了google-analyics的脚本,一直都不怎么留意,今天打开看了一下,居然发现最近每天都有几十个通过关键字PFSVODDATA过来的点击,并且一直在增长,自己试着google和baidu了一下,原来是前面写过一片《关于PFSVODDATA文件或者文件夹》,其中在两个搜索引擎中关键字PFSVODDATA分别google中排第1,百度中排第7。建议不凡将一些比较好的关键字设为Tag,也许会有意想不到的效果。 Continue reading “文章中的关键字带来的意外点击”

百度,不懂中文的是你!

首先申明:作者并非google fans也没有对百度有任何的成见。仅仅是就事论事。记得看到过百度对google中国的评价:google不懂中文。

抛开各种因素不谈,用google和baidu对自己的博客site了一下,发现tag中的汉字,“不懂中文”的google可以显示得很正常,很可惜我们“懂中文”的百度显示的却是一堆乱码。难道懂中文的百度只知道中文有GB2312,GBK,而不知道中文可以是UTF8吗? Continue reading “百度,不懂中文的是你!”

网络爬虫如何抓取web2.0 Ajax页面

伴随着AJAX/Web2.0的流行,如何抓取Ajax页面成了搜索引擎急需解决的一个问题,因为Ajax颠覆了传统的纯HTTP请求/响应协议机制,如果搜索引擎依旧采用“爬”的机制,是无法抓取到AJAX页面的有效数据的。 Continue reading “网络爬虫如何抓取web2.0 Ajax页面”