Dec 19

is leo在他的《博客营销》中说不清楚全文检索博客的领域是什么,呵呵,整个Minidx.com其实都只不过是一个自己随便涂鸦的地方,倒还真没考虑过什么领域,更加没有考虑过自己的博客应该专注于哪一方面……如果非要划分,大概http://minidx.com勉强还能算得上一点“领域”吧。呵呵,无所谓了,随便涂鸦吧……OODA SAN说他在研究图片搜索引擎,所以就和他探讨了一些图片搜索的实现的问题,这里也记录一下自己的思路,OODA是这方面的专家,而我只能算是“新手上路”,下面说的有什么不对的还望包涵指出,:)

简单的说,图片搜索是搜索引擎针对网络上的图片所提供的服务。包括Google, Yahoo!, Ask, MSNAOL以及国内的Baidu这些大型搜索引擎都提供有图片搜索,还有号称图片搜索专用的picsearch,但它们并非真正地对文件中的图像进行搜索,而是对附加在图片中的文字(比如img标签的alt属性)以及文件名进行搜索,也就是通常意义上的关键字索引,所以实质上用的还是基于文本内容的检索,因此也只能搜索数量较少的文件,IBM 公司的研究人员也曾经开发一种名为Marvel的可以实现音像资料搜索的搜索引擎,它能够获取目前在互联网上很难获取的音像资料,只是没有关注过目前的进展。目前微软也正在研究可以通过头像来查找某人的信息这样的搜索引擎,微软将之成为Photo2Search,“a picture is worth a thousand words”,真正意义上的多媒体搜索引擎的实现,带给人们的影响,将可以与蒸汽机,电脑相媲美……


也许有人不明白图片搜索能给我们带来什么

当你看到了一种植物,但是不知道叫什么名字及其相关信息……

当你有一张某酒店的照片但是不知道这一酒店的信息……

当你看到某张照片上美丽的风光是你很向往的但是却偏偏没有相关的介绍……

当摄像头拍下了某“坏蛋”的面孔但是却没有人认识这个人……

当你看到上面的美女却压根找不到一点相关的信息……

对于这些问题,用google的图片搜索,可以吗?baidu能够告诉你答案吗?虽然Google 图片搜索的时候,在搜索结果页面的网址后面加入&imgtype=face这个参数,即可将图片类型限定为人脸,但是很显然,这样的技术并不能帮助我们解决上面那些问题。而这些需求却是一直都存在的,那么能够帮我们解决这些问题的真正意义上的多媒体(注:不仅仅是图片,其实包括声音文件,影像文件等)搜索引擎应该如何去实现?下面是我所能想到的几种方案

●统一多媒体文件的存储格式。不管是BMP,JPG,GIF……还是MP3,RM,AVI……在生成这样的文件的时候都必须添加必要的文本信息,以特有的结构体存储。这样输入一张图片进行查询的时候,搜索引擎需要的只不过是去解析这一图片的信息,抽取关键字进行查询就可以了。但是,这个世界,是没有想象中那么理想的,否则也不会存在中文,英文,法语,日语……也不会有东方神仙与西方大神了……要制定这样的标准,不是google,yahoo这样的公司可以做到的,也不是美国,中国可以做到的。所以这只能说是镜中水月……无法实现的,就当时我心中的一个美丽的肥皂泡吧。

●提取事物特有的信息对搜索引擎进行训练。研究过搜索引擎的朋友们应该知道,中文分词不同于英文分词,英文可以按照空格来划分单词,但是中文却是连成一片的。所以为了提高中文分词的准确率,通常会准备大量的语料对其进行训练。而有用3D Max之类工具建模经验的朋友们应该知道,在构造某一事物的时候,最先需要对这一事物的特征进行分析,确定好坐标,然后进行构造。不管后面用什么场景来渲染,所建的模都是一样的。比如茶壶,有自己特有的曲线,还有人的脸,一些坐标是相对固定的,不管这个人是年轻,还是变老,这些特征都是无法改变的。所以如果可以采集到足够的“语料”,对搜索引擎进行训练,那么随着训练的进行,搜索引擎认识的东西也就不断的增加,能够提供给我们的信息帮助我们解决的问题也就越来越多。这个和早期的文本搜索引擎应该是一样的。

●对多媒体文件的内容进行分析索引。这种方式是OODA告诉我他正在研究的,大体思路是这样的,比如BMP位图,实际上是以比特流,也就是位的方式存储的,某一类物质,比如说rose,实际上内部的很多比特流都是有一定特征的,这个和通常意义上的文本分类很像,先根据大的特征进行大的分类,然后范围逐步缩小,最终确定目标。不过这个所需要的知识面太过于广泛,至少我无法分析出两张rose图片的相似比特流,希望OODA能够带来一个惊喜吧。

各大搜索引擎公司目前都在投入大量的资金研究这样的搜索引擎,我的Minidx是基于文本的搜索引擎,而我本身对图片之类的比较“白痴”,所以也只能写这么些废话,来贻笑大方了。:)

written by Minidxer  |  tags: , , , , , , , , , ,

Related Post

4 Responses to “浅谈图片搜索引擎的实现”

  1. pirate Says:

    学习了,你好棒额

  2. Minidxer Says:

    谢谢~呵呵,让您见笑了

  3. qingyang xu Says:

    你好!最近想根据一张图片搜索相关图片,发现现有搜索引擎根本无能为力,突发奇想能不能开发这样的根据图片搜索图片的引擎(不好意思我不是学计算机的,是搞物理电子相关的,只是奇想),后来查了一下“图片搜索引擎”相关资料,才了解大的搜索公司正在搞(正如你所说的),看来一般小人物是无能为力了。真是有点不甘心:)。。。好不容易想出了个好点子,却心有余而力不足。希望有机会你再谈谈这方面的情况!

  4. amukuang Says:

    老实说….我是初二就在想能不能实现根据一张图片搜索相关图片…汗 现在读大二…..都还没有看到成熟的技术出现….请允许我转帖到自己的博客上收藏….我会注明转载自何处…谢谢

Leave a Reply