<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>中文Flex例子 &#187; 搜索引擎</title>
	<atom:link href="http://blog.minidx.com/tag/%e6%90%9c%e7%b4%a2%e5%bc%95%e6%93%8e/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.minidx.com</link>
	<description>中文Adobe Flex例子,Flex实例教程,RIA资源,全文检索技术,算法和数据结构</description>
	<lastBuildDate>Thu, 31 Mar 2011 03:22:33 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章</title>
		<link>http://blog.minidx.com/2009/01/01/1862.html</link>
		<comments>http://blog.minidx.com/2009/01/01/1862.html#comments</comments>
		<pubDate>Thu, 01 Jan 2009 14:31:28 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[labin]]></category>
		<category><![CDATA[网络爬虫]]></category>
		<category><![CDATA[网络蜘蛛]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/?p=1862</guid>
		<description><![CDATA[larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取５００万的网页。
利用larbin，我们可以轻易的获取/确定单个网站的所有联结，甚至可以镜像一个网站；也可以用它建立url 列表群，例如针对所有的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3，或者定制larbin，可以作为搜索引擎的信息的来源。








不过它的最大的亮点还是开源，相信很多人拿到larbin源代码的时候会感觉无从入手，下面是一篇非常不错的开源的网络爬虫/网络蜘蛛larbin结构分析的文章,有兴趣的最好仔细阅读尝试一下。
互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景，尤其是类似RSS的以XML为基础的结构化的数据越来越多，内容的组织方式越来越灵活，检索组织并呈现会有着越来越广泛的应用范围，同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫，信息的来源入口。一个高效，灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。
要设计一个爬虫，首先需要考虑的效率。对于网络而言，基于TCP/IP的通信编程有几种方法。
第一种是单线程阻塞，这是最简单也最容易实现的一种，一个例子：在Shell中通过curl，pcregrep等一系统命令可以直接实现一个简单的爬虫，但同时它的效率问题也显而易见：由于是阻塞方式读取，dns解析，建立连接，写入请求，读取结果这些步骤上都会产生时间的延迟，从而无法有效的利用服务器的全部资源。
第二种是多线程阻塞。建立多个阻塞的线程，分别请求不同的url。相对于第一种方法，它可以更有效的利用机器的资源，特别是网络资源，因为无数线程在同时工作，所以网络会比较充分的利用，但同时对机器CPU资源的消耗也是比较大，在用户级多线程间的频繁切换对于性能的影响已经值得我们考虑。
第三种是单线程非阻塞。这是目前使用的比较多的一种做法，无论在client还是server都有着广泛的应用。在一个线程内打开多个非阻塞的连接，通过poll/epoll /select对连接状态进行判断，在第一时间响应请求，不但充分利用了网络资源，同时也将本机CPU资源的消耗降至最低。这种方法需要对dns请求，连接，读写操作都采用异步非阻塞操作，其中第一种比较复杂，可以采用adns作为解决方案，后面三个操作相对简单可以直接在程序内实现。
效率问题解决后就需要考虑具体的设计问题了。
url肯定需要一个单独的类进行处理，包括显示，分析url，得到主机，端口，文件数据。
然后需要对url进行排重，需要一个比较大的url Hash表。
如果还要对网页内容进行排重，则还需要一个Document Hash表。
爬过的url需要记录下来，由于量比较大，我们将它写到磁盘上，所以还需要一个FIFO的类(记作urlsDisk)。
现在需要爬的url同样需要一个FIFO类来处理，重新开始时，url会从定时从爬过的url FIFO里取出来，写到这个FIFO里。正在运行的爬虫需要从这个FIFO里读数据出来，加入到主机类的url列表里。当然，也会从前一个FIFO里直接读url出来，不过优先级应该比这个里面出来的url低，毕竟是已经爬过的。
爬虫一般是对多个网站进行爬取，但在同时站点内dns的请求可以只做一次，这就需要将主机名独立于url，单独有一个类进行处理。
主机名解析完成后需要有一个解析完成的IP类与之应用，用于connect的时候使用。
HTML文档的解析类也要有一个，用来分析网页，取出里面的url，加入到urlsDisk。
再加上一些字符串，调度类，一个简单的爬虫基本上就完成了。
以上基本上是Larbin的设计思路，Larbin在具体实现上还有一些特殊的处理，例如带了一个webserver，以及对特殊文件的处理。 Larbin有一点设计不不太好，就是慢的访问会越来越多，占用大量的连接，需要改进，另外如果对于大规模的爬虫，这仅仅实现了抓取的部分，要分布式的扩展还需要增加url的集中管理与调度以及前台spider的分布式算法。
Larbin网站爬虫简明使用说明
larbin是一种爬虫工具，我也是前段时间网上看到 Larbin 一种高效的搜索引擎爬虫工具 一文时才知道有这么个东西，初步认定，我比较喜欢这个工具(比起nutch的crawl来说),因为它是C++写的，类似C嘛，我熟，可以自己改改，顺便学习一下C++(几年来的经验告诉我说：改别人的东西来学一种技术比从头写helloworld快很多)。于是开始了我艰辛的larbin试用之旅。 
　　回头看看自己遇到的问题都是由于没认真看文档引起的，唉，老毛病了。下次即使是E文的也得好好看，不能盲目的试，浪费时间。 
　　larbin官方地址：http://larbin.sourceforge.net/index-eng.html
一，编译 
　　这也好说，whahahaha，那是！因为从官方网站下下来的代码不能编译通过(linux gcc下)
　　./configure 
　　make
　　gcc -O3 -Wall -D_REENTRANT -c -o parse.o parse.c 
　　parse.c:115: error: conflicting types for ’adns__parse_domain’ 
　　internal.h:571: error: previous declaration of ’adns__parse_domain’ was here
　　parse.c:115: error: conflicting types for ’adns__parse_domain’
　　internal.h:571: error: previous declaration of ’adns__parse_domain’ was here 
　　gmake[1]: [...]]]></description>
		<wfw:commentRss>http://blog.minidx.com/2009/01/01/1862.html/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>viewzi.com，又一款华而不实的可视化搜索引擎</title>
		<link>http://blog.minidx.com/2008/08/11/1244.html</link>
		<comments>http://blog.minidx.com/2008/08/11/1244.html#comments</comments>
		<pubDate>Mon, 11 Aug 2008 01:12:42 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[Adobe其他]]></category>
		<category><![CDATA[Flash]]></category>
		<category><![CDATA[Searchme]]></category>
		<category><![CDATA[ViewZi]]></category>
		<category><![CDATA[可视化]]></category>
		<category><![CDATA[搜索引擎]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/?p=1244</guid>
		<description><![CDATA[假如说之前的SearchMe.com尚且能给人一点惊讶(Searchme:very cool but I don’t think it will be useful)的感觉的话，那接下来的viewzi.com充其量最多只能说是一个没有经过大脑思考的跟风产品。在搜索的时候能有良好的体验固然是好事，但是假如结果无法让人一目了然，甚至看到的结果给人的第一感觉是找不到方向……那愿意使用的几个估计也是闲着实在没事情做了。人们使用搜索引擎初衷是为了找东西，所以需要在尽可能少的地方提供尽可能多的信息&#8211;这一点，目前的主流搜索引擎都做到了。创新固然是好事，但是忘记了根本的话，那所有的努力换来的也只不过一场徒劳而已。








viewzi.com的搜索结果中我只能看到一块一块的什么也看不清楚地图片，除了为Flex/Flash技术的滥用提供良好的案例，实在想不出这样的东西能有什么作用，有兴趣的还是自己去体验一把吧……
http://www.viewzi.com/
你可能还对下列文章感兴趣:Adobe/Macromedia Flash搜索引擎SDKAdobe移动战略失败的幕后Flash AS3化骨綿掌之Flash AS3 Compiler的BugHTML5对Adobe Flex/Flash的冲击25篇很不错的Flash和ActionScript 3相关的教程]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/08/11/1244.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google,丢弃中文市场又有何妨？</title>
		<link>http://blog.minidx.com/2008/04/27/779.html</link>
		<comments>http://blog.minidx.com/2008/04/27/779.html#comments</comments>
		<pubDate>Sun, 27 Apr 2008 13:57:39 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[随便写写]]></category>
		<category><![CDATA[baidu]]></category>
		<category><![CDATA[eBay]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[淘宝]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/04/27/779.html</guid>
		<description><![CDATA[自从互联网结束了门户时代，进入搜索引擎年代之后，在中国这片领土中，人们便不断的拿着Google于Baidu当作两个对手，不断的讨论着百度占据了多少市场份额，而Google的份额又少了多少，为此津津乐道，乐此不彼。不管从资金、技术、人才还是品牌，Baidu其实连给Google提鞋的资格都没有&#8211;哪怕Baidu在中国市场称雄称霸，那又如何？在关于百度(NASDAQ:BIDU)获得了“中国企业走出去”国家贡献奖的很有意思的一篇文章中就说过，Baidu的成功，也仅仅只能是在中国市场的成功。 








Baidu的发家是从哪里开始的？中国的网民们在下载着靠百度搜索出来的“免费MP3”的时候，心里都应该清楚吧。而这，并不是技术问题，而是政策问题，同时也是一个道德问题。
马云，这个靠着一张嘴，把一个要技术没技术，要资金没资金的小作坊，创建成为今日的阿里巴巴，原因是什么？大家一定还记得eBay收费的开始，也就是淘宝发家的开始，免费！
官方高姿态的宣布中国网民跻身世界第一，2亿多的网民，的确是一个潘大的数字。不过从Baidu与阿里巴巴的今日的成功（当然还有腾讯），我们都可以看到他们的一个共同点，他们面向低端市场。的确，中国网民数字是庞大，但是却基本上没有什么消费能力。美国的1000IP可以有10美元的价值，而中国的呢？1块RMB都不到。那个2亿，充其量也只不过面子好看的工程而已。
中国市场不断的发展，生气勃勃，中国市场也的确是一块非常重要的市场，不过目前占有这块市场并不等于以后也就占据了这块市场，如果那些依靠政策，依靠成为市委书记、省委书记们的座上宾而换来的成功的企业，不好好的思考着如何让自己的产品更加的具有竞争力，那么，当中国人民整体素质提升的时候，中国市场不再是低端市场的时候，也就是中国用户开始丢弃你们的时候了。
今日之Google，你又何必要苦苦守着犹如鸡肋般毫无价值可言的大陆市场呢？
你可能还对下列文章感兴趣:浅谈图片搜索引擎的实现文章中的关键字带来的意外点击Ntt.CC从Google沙盒(Sandbox)出来了全文检索博客也被Google惩罚了？世界各地主流，非主流搜索引擎以及功能性搜索引擎一览]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/04/27/779.html/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>关于百度(NASDAQ:BIDU)获得了&#8220;中国企业走出去&#8221;国家贡献奖的很有意思的一篇文章</title>
		<link>http://blog.minidx.com/2008/04/25/771.html</link>
		<comments>http://blog.minidx.com/2008/04/25/771.html#comments</comments>
		<pubDate>Thu, 24 Apr 2008 16:01:14 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[随便写写]]></category>
		<category><![CDATA[国家贡献奖]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[日本]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[百度模式]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/04/25/771.html</guid>
		<description><![CDATA[在cnBeta上看到一篇关于百度的很有意思的文章， 之所以说写得很有意思，那是因为和前面的什么样软件才算是“世界级商业应用软件”? 中国用友软件开发研制的U9套件?一样，又是一篇本来想夸奖啥啥啥的文章，却因为作者认识上的缺陷，反而写成了一个靶子，让人往上面投石子。文章的原文在这里，就不全文转载了。下面是几点比较“搞笑”的地方，提取出来Show一下。








首先是“中国企业走出去”国家贡献奖这个名字，百度是中国企业吗？关于这个，想必现在地球人都已经知道百度身上流的并不是中国人的血了吧。
文章还说：
创造了以核心搜索引擎技术和本土化的服务意识参与国际上技术最前沿和竞争最激烈的信息技术领域的“百度模式”.

这句话看了好几遍才看明白，原来想重点说明的是“百度模式”这个概念，至于为什么说是“国际上技术最前沿和竞争最激烈的信息技术领域”，我实在搞不明白。
文章又说：
日本媒体报道,从百度日本(www.baidu.jp) 2008年1月上线以来,如果以流量计算,已经成为日本第四大独立搜索引擎,但其搜索速度比日本谷歌快15倍,比日本雅虎快10倍.这说明一个道理,真正有竞争力的国际化,就是用先进的技术而不用是廉价的产品和劳动力占领市场.

真想问问是哪家日本媒体，不会是百度自己吧？“如果以流量计算”，“独立搜索引擎”，加了这么多限定词干吗？Google加上日本Yahoo站了日本搜索引擎的份额的多少你知道吗？如果去掉Google和日本Yahoo的份额，不要说第三，不要说“以流量计算”，也不要说“独立搜索引擎”，就算把剩下的全部都给百度，那也只不过少的可怜的一点点而已……而且居然以这个做为依据，汗，百度在中国为什么可以成功？在日本没有了“特殊政策”以及特殊“超级设备”的保护以及照顾，你倒是争气一点成功给我看看啊……什么数据都没有，搜索的速度当然快了……而且百度搜索要0.1秒的话，Google搜索要1.5秒，日本雅虎要1秒，这样的数据，骗骗外行人可以，要是让业内人士看的话，恐怕真的要笑掉大牙了。还有就是请来看看日本百度搜索结果的准确度吧，看看百度告诉你的，是否是你想要的结果，
文章最后说：
百度以搜索技术成功地东征日本,已经不是一个企业的荣耀,更象征着后工业时代中,中国高科技行业的崛起

百度的确扔了一笔钱在日本，不过至少到目前为止，连起码的浪花都还没有溅起，谈什么“成功”？谈什么“荣耀”？作者真的以为日本人会认为百度是中国的企业吗？就算成功了，会认为是中国的成功吗？
我想写这样的文章之前，最好还是先过来了解一下百度在日本的状况，了解一下日本的搜索引擎市场的比较好，否则写出来的东西，画出来的老虎依旧是不像老虎也不像猫，很是滑稽。
你可能还对下列文章感兴趣:靠搜索引擎带来流量的网站的大忌文章中的关键字带来的意外点击百度搜索框大厦貌似很漂亮啊关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章viewzi.com，又一款华而不实的可视化搜索引擎]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/04/25/771.html/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>利用Minidx Extract-Text Com组件封装类的实现</title>
		<link>http://blog.minidx.com/2008/04/13/712.html</link>
		<comments>http://blog.minidx.com/2008/04/13/712.html#comments</comments>
		<pubDate>Sun, 13 Apr 2008 14:59:09 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[Minidx相关]]></category>
		<category><![CDATA[Com组件]]></category>
		<category><![CDATA[doc]]></category>
		<category><![CDATA[Extract Text]]></category>
		<category><![CDATA[Minidx]]></category>
		<category><![CDATA[搜索引擎]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/2008/04/13/712.html</guid>
		<description><![CDATA[这个主要是为解决PP提出的频繁初始化Com时效率问题。很抱歉这其实并不是一个封装的类，例子中只是将ITextExtractor指针设为全局变量,一次初始化,多次重复使用而已 （注意按下File选择文件的时候每次用的都是同一个指针），最后在按下退出程序的时候释放。不过原理是一样的，例子中ITextExtractor的指针进行封装就可以了。
具体的封装大家可以自己根据需要去实现,前提条件是保持ITextExtractor指针不被改变就可以了. 由于CoCreateInstance的关系，建议封装为SingleTon模式。








下载在这里。
第一次使用的话，其他的相关说明可以参照下面几篇文章：
利用Minidx Extract-Text Com组件从Word,Xls,Pdf&#8230;&#8230;等文件中读取文本内容
利用Minidx Extract-Text Com组件从doc,Xls,Pdf&#8230;&#8230;等读取文本内容VC2003 Demo
利用Minidx Extract-Text Com组件从doc,Xls,Pdf&#8230;&#8230;等读取文本内容VC Demo
你可能还对下列文章感兴趣:利用Minidx Extract-Text Com组件从doc,Xls,Pdf&#8230;&#8230;等读取文本内容VC Demo利用Minidx Extract-Text Com组件从Word,Xls,Pdf&#8230;&#8230;等文件中读取文本内容利用Minidx Extract-Text Com组件从doc,Xls,Pdf&#8230;&#8230;等读取文本内容VC2003 DemoSWIG发布1.3.33版本Minidx.RC1.1的中日英版本下载数都已经超过1K了]]></description>
		<wfw:commentRss>http://blog.minidx.com/2008/04/13/712.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk
Page Caching using disk (enhanced)
Database Caching 2/29 queries in 0.492 seconds using disk
Object Caching 421/810 objects using disk

Served from: blog.minidx.com @ 2012-02-10 03:15:23 -->
