“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系

By Minidxer | January 3, 2008

150px-Web_search 本博客称之为“全文检索博客”,而不是“搜索引擎博客”,那么,“全文检索(full-text search)”和“搜索引擎(search engine)”的区别是什么?他们之间又存在着怎么样的联系?

由于Google等搜索引擎公司高速发展,使得“搜索引擎(search engine)”深入人心,使得在很多人心中,将Google,Baidu于搜索引擎划上了等号……让我们来深入了解一下这两个名词以及相关的概念吧。

●全文检索(full-text search):

从文本或数据库中,不限定资料字段,自由地萃取出讯息的技术。

●搜索引擎(search engine):

执行全文检索任务的程序,一般称作搜索引擎(search engine),它将使用者随意输入的文字,试图从数据库中,找到符合的内容。

上面是来自百科全书的两个名词的解释。

目前一般用户理解的搜索引擎,通常是指自动从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。互联网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。其实还有桌面搜索引擎,网站站内搜索引擎等

对于英文,需要经过语根处理 (stemming),符素解析(token parser),分词(word segmentation),索引(index)等处理后,才可以进行查询(Search/Query),中文没有词形的变化,不需要语根处理 (stemming),但是中文分词不像英文那样可以按照空格来划分,相对比较复杂,目前采用的技术比较普遍的是1-gram, 2-gram, N-gram。

索引(index)效率比较高的算法是反向索引(inverted index),通常也成为倒排索引。

搜索引擎处理的对象一般是文本(Text),可以通过《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中的技术,对doc,xls等非文本文件进行文本抽取,但是这些都属于搜索引擎外围部件。

评测一个搜索引擎的好坏,查全率(recall rate)和查准率(precision)是两个非常重要的参数,互联网由于海量的信息量,所以有了Google PageRank和百度的中文搜索由超链分析技术,使得用户可以更加快速的找到自己需要的。

Topics: 搜索引擎 | Tags: , , , , , , , , , , ,

Related Post

10 comments | Add One

  1. oxygen - 01/3/2008 at 4:14 pm

    发现一个错别字 :roll:

    第六行“不限定”应该是“不限制”。

  2. Minidxer - 01/3/2008 at 4:24 pm

    @oxygen
    谢谢帮我找错别字,呵呵。
    在第10行中有说明,这个解释来自维基百科,原文就是“不限定”。
    全文检索就是不像普通的检索那样,只针对某一特定字段,或一组特定的字段,而是全部,所以这里的“不限定”,比“不限制”要准确一些,:)

  3. qinai - 01/3/2008 at 9:36 pm

    太忙了,这些都是知识啊。一定要好好学习。

  4. Minidxer - 01/3/2008 at 9:47 pm

    @qinai
    工作第一!
    呵呵,忙一点好,越忙Money越多~~~

  5. oxygen - 01/4/2008 at 5:01 pm

    汗,我看错了。

    我看成了“不限字”,把定看成字了,不然也不会提出来……

    真丢人 :oops:

  6. Minidxer - 01/4/2008 at 5:07 pm

    @oxygen
    怎么会丢人呢,能提出来说明文中内容比较了解~
    鸡蛋和鲜花都扔给你,呵呵

  7. zhq_21 - 01/6/2008 at 9:41 am

    你好,看了你的这篇文章,知道了全文检索是怎么回事,我今年做毕业设计,题目是,

    ,但我的基础是0呃,不知道您有没有关于全文检索关于建立索引

    方面的资料?如果有发到我邮箱一下:zhq_21@163.com

  8. Minidxer - 01/6/2008 at 9:50 am

    @zhq_21
    你好,下面的链接(论文,参考书籍栏目)我放了几篇论文,都是关于创建索引的不错论文
    http://cn.minidx.com/index.php?option=com_docman&task=cat_view&gid=19&Itemid=38

  9. stone - 07/8/2008 at 10:27 am

    我也要好好参详下你的论文,呵呵,

Trackbacks

Leave a Comment

Name(*):

E-Mail(*) :

Website :

Comments :

Search Posts

Archives

Sponsored Ads