Apr 27

google-logo自从互联网结束了门户时代,进入搜索引擎年代之后,在中国这片领土中,人们便不断的拿着Google于Baidu当作两个对手,不断的讨论着百度占据了多少市场份额,而Google的份额又少了多少,为此津津乐道,乐此不彼。不管从资金、技术、人才还是品牌,Baidu其实连给Google提鞋的资格都没有–哪怕Baidu在中国市场称雄称霸,那又如何?在关于百度(NASDAQ:BIDU)获得了“中国企业走出去”国家贡献奖的很有意思的一篇文章中就说过,Baidu的成功,也仅仅只能是在中国市场的成功。

Continue reading »

written by Minidxer  |  tags: , , , ,

Apr 25

baidu在cnBeta上看到一篇关于百度的很有意思的文章, 之所以说写得很有意思,那是因为和前面的什么样软件才算是“世界级商业应用软件”? 中国用友软件开发研制的U9套件?一样,又是一篇本来想夸奖啥啥啥的文章,却因为作者认识上的缺陷,反而写成了一个靶子,让人往上面投石子。文章的原文在这里,就不全文转载了。下面是几点比较“搞笑”的地方,提取出来Show一下。

Continue reading »

written by Minidxer  |  tags: , , , ,

Apr 13

这个主要是为解决PP提出的频繁初始化Com时效率问题。很抱歉这其实并不是一个封装的类,例子中只是将ITextExtractor指针设为全局变量,一次初始化,多次重复使用而已 (注意按下File选择文件的时候每次用的都是同一个指针),最后在按下退出程序的时候释放。不过原理是一样的,例子中ITextExtractor的指针进行封装就可以了。

具体的封装大家可以自己根据需要去实现,前提条件是保持ITextExtractor指针不被改变就可以了. 由于CoCreateInstance的关系,建议封装为SingleTon模式。

Continue reading »

written by Minidxer  |  tags: , , , ,

Mar 20

Flash的swf文件的索引很难被搜索引擎索引,想不到Adobe/Macromedia已经开发了针对Flash的搜索引擎SDK,利用该SDK,可以轻松的将swf转为html,然后进行索引。

该SDK包括:

Continue reading »

written by Minidxer  |  tags: , , , , , ,

Mar 17

Ntt.CC进了Google的沙盒(Sandbox)中说到了Ntt.cc被Google关进了沙盒(Sandbox)labs,导致访问量一下子从“天上”掉到“地下”,来自Google的访问量几乎降到了个位数。查了很多相关的文章,包括国外的很多SEOer们都提到说至少需要被关6个月左右(不清楚沙盒是什么的可以自己google一下)。

Continue reading »

written by Minidxer  |  tags: , , , ,

Jan 14

Graph-48x48 什么是排序技术

所谓的排序技术,我们可以简单的理解为曝光率,谁出现的次数最多,谁排在前面。要谈到排序技术,就不得不说Google的PageRank,而提到PageRank,则我们需要先来了解一下一种称为HillTop的排序算法。

Continue reading »

written by Minidxer  |  tags: , , , , , ,

Jan 13
delete-user-48x48

在《Google的PR开始了2008年的第一次更新》中提到了2008年的第一次PR已经开始更新了,minidx.com的一些新开的二级域名有了2的PR,但是Google网站管理员工具中显示PR最高的http://blog.minidx.com却一直都是0,据说PR更新一般会需要1个星期时间才可以完全更新完。无意中打开自己的一篇《关于PFSVODDATA文件或者文件夹》,发现这个单篇文章的PR值居然是2。

Continue reading »

written by Minidxer  |  tags: , , , ,

Jan 10

folder-find-48x48利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中具体的说明了Vb.Net中调用Minidx Extract-Text Com组件对Word,Excel,Pdf等各种文件进行文本抽取的用法。结果很多人都发邮件过来询问C++中如何调用(一些邮件会被Gmail判断为垃圾邮件……强烈建议有问题直接在本文后面留言或在这里提问,这样也可以减轻一点我的工作量,不必挨个回复)。抽空作了一个VC的Demo,工程用VS2005创建的,Unicode版本。下面对Demo稍微做一些说明,一些基本原理直接参照《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》就可以了,这里不再重复。

Continue reading »

written by Minidxer  |  tags: , , , , , , , , , ,

Jan 08

web-search-48x48 提到搜索引擎,估计一般人条件反射的就会跳出Google,Yahoo,百度……其实世界各地还有很多互联网的搜索引擎,稍微整理了一个列表,Thumbnail的网页快照好像不是都可以抓到,所以也就不去一一抓取了。下面文中部分相关说明来自维基百科,很可惜众所周知的原因好东西大陆网民是无法享受的。

Continue reading »

written by Minidxer  |  tags: , , , , , , , , , , , , ,

Jan 04

word-segment 在《“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系》中我们提及到了中文分词,以及《双数组Trie(Double Array Trie)实现原理的一点剖析》中阐述了高效率中文分词的实现。接下来让我们抛开双数组Trie的那些公式,从概念上来了解一下分词技术,因为英文分词相对比较简单,这里主要来了解的是中文分词。

英文是以词为单位的,词与词之间上靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,翻译成“我是一个学生”。计算机可以很简单的通过空格知道student是一个单词,但是“学”,“生”假如分开来,计算机是无法理解的。必须把他们合在一起才变得有意义。把中文的汉字序列切分成有意义的词,就是中文分词。再比如“研究生命”,可以划分为“研究生/命”,也可以是“研究/生命”,假如是人脑可以很明显的判断出这里后者的划分更加的确切,但是计算机要做到这一点却是相当的困难。

现有的分词算法有3种:基于字符串匹配的分词算法、基于理解的分词算法和基于统计的分词算法。

Continue reading »

written by Minidxer  |  tags: , , , , , , , , ,