<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>中文Flex例子 &#187; 协议驱动</title>
	<atom:link href="http://blog.minidx.com/tag/%e5%8d%8f%e8%ae%ae%e9%a9%b1%e5%8a%a8/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.minidx.com</link>
	<description>中文Adobe Flex例子,Flex实例教程,RIA资源,全文检索技术,算法和数据结构</description>
	<lastBuildDate>Thu, 31 Mar 2011 03:22:33 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>网络爬虫如何抓取web2.0 Ajax页面</title>
		<link>http://blog.minidx.com/2007/10/31/39.html</link>
		<comments>http://blog.minidx.com/2007/10/31/39.html#comments</comments>
		<pubDate>Wed, 31 Oct 2007 11:24:07 +0000</pubDate>
		<dc:creator>Minidxer</dc:creator>
				<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[Ajax]]></category>
		<category><![CDATA[DOM结构]]></category>
		<category><![CDATA[HTTP请求]]></category>
		<category><![CDATA[JavaScript]]></category>
		<category><![CDATA[web2.0]]></category>
		<category><![CDATA[XML]]></category>
		<category><![CDATA[事件驱动]]></category>
		<category><![CDATA[协议驱动]]></category>
		<category><![CDATA[响应]]></category>
		<category><![CDATA[异步请求]]></category>
		<category><![CDATA[网络爬虫]]></category>
		<category><![CDATA[静态页面]]></category>

		<guid isPermaLink="false">http://blog.minidx.com/?p=39</guid>
		<description><![CDATA[伴随着AJAX/Web2.0的流行，如何抓取Ajax页面成了搜索引擎急需解决的一个问题，因为Ajax颠覆了传统的纯HTTP请求/响应协议机制，如果搜索引擎依旧采用“爬”的机制，是无法抓取到AJAX页面的有效数据的。







AJAX，也就是Asychronous Javascript and XML，由于采用了Javascript驱动的异步请求/响应机制，以往的爬虫们缺乏Javascript语义上的理解，基本上是无法模拟触发Javascript的异步调用并解析返回的异步回调逻辑和内容。
另外AJAX的应用中，Javascript会对DOM结构进行大量地变动,甚至页面所有的内容都是通过Javascript直接从服务器端读取并动态绘制出来.这个对于&#8221;习惯了&#8221;DOM结构相对不变的静态页面,简直是无法理解的.
由此可以看出,以往的爬虫是基于协议驱动的,而对于AJAX这样的技术，所需要的“爬虫”引擎必须是基于事件驱动的。要实现事件驱动，首先需要解决下面几点问题
●Javascript的交互分析和解释
●DOM事件的处理和解释分发
●动态DOM内容语义的抽取
至于具体如何去实现，个人觉得Crawling Ajax-driven Web 2.0 Applications这篇论文很有参考价值。有兴趣地可以研究研究。
你可能还对下列文章感兴趣:利用JSON代替XML解决各版本浏览器对DOM支持不同的问题15款手风琴(Accordion)效果的Ajax插件(推荐)关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章关于Ntt.cc上有偿征集Flex,Flash,Ajax,JavaScript相关文章的设想/具体实施最完整的AJAX Framework和JavaScript Libraries列表(124+)]]></description>
		<wfw:commentRss>http://blog.minidx.com/2007/10/31/39.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk
Page Caching using disk (enhanced)
Database Caching 3/7 queries in 0.037 seconds using disk
Object Caching 174/333 objects using disk

Served from: blog.minidx.com @ 2012-02-10 03:30:08 -->
