“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系
By Minidxer | January 3, 2008
本博客称之为“全文检索博客”,而不是“搜索引擎博客”,那么,“全文检索(full-text search)”和“搜索引擎(search engine)”的区别是什么?他们之间又存在着怎么样的联系?
由于Google等搜索引擎公司高速发展,使得“搜索引擎(search engine)”深入人心,使得在很多人心中,将Google,Baidu于搜索引擎划上了等号……让我们来深入了解一下这两个名词以及相关的概念吧。
●全文检索(full-text search):
从文本或数据库中,不限定资料字段,自由地萃取出讯息的技术。
●搜索引擎(search engine):
执行全文检索任务的程序,一般称作搜索引擎(search engine),它将使用者随意输入的文字,试图从数据库中,找到符合的内容。
上面是来自百科全书的两个名词的解释。
目前一般用户理解的搜索引擎,通常是指自动从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。互联网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。其实还有桌面搜索引擎,网站站内搜索引擎等
对于英文,需要经过语根处理 (stemming),符素解析(token parser),分词(word segmentation),索引(index)等处理后,才可以进行查询(Search/Query),中文没有词形的变化,不需要语根处理 (stemming),但是中文分词不像英文那样可以按照空格来划分,相对比较复杂,目前采用的技术比较普遍的是1-gram, 2-gram, N-gram。
索引(index)效率比较高的算法是反向索引(inverted index),通常也成为倒排索引。
搜索引擎处理的对象一般是文本(Text),可以通过《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中的技术,对doc,xls等非文本文件进行文本抽取,但是这些都属于搜索引擎外围部件。
评测一个搜索引擎的好坏,查全率(recall rate)和查准率(precision)是两个非常重要的参数,互联网由于海量的信息量,所以有了Google PageRank和百度的中文搜索由超链分析技术,使得用户可以更加快速的找到自己需要的。
Topics:
搜索引擎 |
Tags: PageRank, 倒排索引, 全文检索, 分词, 反向索引, 搜索引擎, 查全率, 查准率, 符素解析, 索引, 语根处理, 超链分析技术
发现一个错别字
第六行“不限定”应该是“不限制”。
@oxygen
谢谢帮我找错别字,呵呵。
在第10行中有说明,这个解释来自维基百科,原文就是“不限定”。
全文检索就是不像普通的检索那样,只针对某一特定字段,或一组特定的字段,而是全部,所以这里的“不限定”,比“不限制”要准确一些,:)
太忙了,这些都是知识啊。一定要好好学习。
@qinai
工作第一!
呵呵,忙一点好,越忙Money越多~~~
汗,我看错了。
我看成了“不限字”,把定看成字了,不然也不会提出来……
真丢人
@oxygen
怎么会丢人呢,能提出来说明文中内容比较了解~
鸡蛋和鲜花都扔给你,呵呵
你好,看了你的这篇文章,知道了全文检索是怎么回事,我今年做毕业设计,题目是,
,但我的基础是0呃,不知道您有没有关于全文检索关于建立索引
方面的资料?如果有发到我邮箱一下:zhq_21@163.com
@zhq_21
你好,下面的链接(论文,参考书籍栏目)我放了几篇论文,都是关于创建索引的不错论文
http://cn.minidx.com/index.php?option=com_docman&task=cat_view&gid=19&Itemid=38
我也要好好参详下你的论文,呵呵,
Trackbacks