网络爬虫如何抓取web2.0 Ajax页面

伴随着AJAX/Web2.0的流行,如何抓取Ajax页面成了搜索引擎急需解决的一个问题,因为Ajax颠覆了传统的纯HTTP请求/响应协议机制,如果搜索引擎依旧采用“爬”的机制,是无法抓取到AJAX页面的有效数据的。 Continue reading “网络爬虫如何抓取web2.0 Ajax页面”

是该高兴,还是应该感到悲哀?

以下是这次换主机过程中的一个小插曲,也许只是个别现象,这里仅仅是记述一下这个问题。 至于体会和感想,应该是每个人都不同的吧…… Continue reading “是该高兴,还是应该感到悲哀?”

关于PFSVODDATA文件或者文件夹

发现自己的电脑C盘(我的电脑只有一个盘)下突然间多了个 PFSVODDATA目录.不记得自己有创建过这样的目录,因为没有装杀毒软件,起初还以为是什么病毒之类的生成的,调查来调查去,最终发现和pplive这个东东有关。 Continue reading “关于PFSVODDATA文件或者文件夹”

启用了一些Minidx.com下的子域名

因为原先的地址都有了相关的PR值,启用新的独立域名就意味着从零开始,呵呵,犹豫了很久,最终还是决定开启子域名。分别启用了:http://blog.minidx.com 全文检索博客

http://forum.minidx.com 全文检索帮助论坛

http://cn.minidx.com Minidx全文检索中文

http://jp.minidx.com Minidx全文检索日文

还有配合之前唐同学的Swig中文计划,启动了http://swig.minidx.com

英文地址保持不变,为http://minidx.com

Gmail系统也会崩溃

※作者:丁志刚  转载请注明:Minidx全文检索http://blog.minidx.com/2007/10/30/32.html

基本上一直都是打开着gmail的,5点多的时候刷新了一下页面,很久还没出来,然后就跳出一句话,说gmail服务器出错,需要等待几分钟……估计20分钟左右后恢复正常。从用gmail开始到现在,大概是第三次遇到这样的问题了。看来想要没有错误的邮件系统,目前,也许将来都是不可能的。

Google中国(谷歌)启用新域名G.cn

Minidxer感叹:Google中国成立的时间也不短了,还没作出过一件像样的事情。听说国内google还三天两头当机,哎,为啥国外的巨头不管是曾经的Yahoo还是如今的Google,前头加了“中国”,普遍就都会变质呢?下面是消息,看看说得多好听:10月29日,Google黑板报发表日志称已经正式启用G.cn域名,用户可输入G.cn跳转到google.cn搜索页面. Continue reading “Google中国(谷歌)启用新域名G.cn”

关于域名注册商Godaddy的一些介绍

因为自己目前用的是Godaddy的主机,购买之前和使用中查阅了很多相关的资料,结合自己使用中的一些经验,对这个注册商进行一些介绍吧。大家可以在这里(http://www.idcspy.com/bbs/)获得更多的信息和帮助,这里的管理员是个很不错的家伙。 Continue reading “关于域名注册商Godaddy的一些介绍”

慎用JavaScript:void(0)

今天调试CGI的时候,明明CGI程序已经执行,并且最后结果也是正确的,但是页面就是不刷新。在FireFox2.0下测试,结果却是正常的,IE6却偏偏不刷新!仔细调查了一下,发现cgi页面链接的是 <a href=”javaScript:void(0)” OnClick=”XXX_Func();” ….> only a sample </a>,问题就出在这个void(0)上! Continue reading “慎用JavaScript:void(0)”

加速Web应用的一点小技巧

刚刚做完Java的一款Web产品,又投入到了一款C的CGI的产品改造中去了。对于Web的应用,感觉速度是一个很重要的方面。稍微总结了一点小技巧,可以适当的提高web页面的速度。当然,加速的效果不会像前文 《一行代码加速IE的JavaScript的方法》中那样数倍的提高,不过可以加速的同时,使得代码本身比较容易维护。 Continue reading “加速Web应用的一点小技巧”

解压缩出自己的压缩文件

前面《什么是数据压缩?》一文讲述过数据压缩是如何实现的。那么,也许有人就会问,能否实现一个能解压出自身的像zip,gzip或其它压缩格式文件呢? Continue reading “解压缩出自己的压缩文件”

Linux平台动态链接程序此共享文件的路径

用Swig封装Minidx,在Ubuntu下编译成so,一切都正常,不过执行时却总是出错,查了一下发现原来是没有设置so的路径,和Windows下dll调用时查找该dll文件的路径的原理是一样的。Linux平台动态链接程序此共享文件的路径的命令: xport LD_LIBRARY_PATH=`pwd`:$LD_LIBRARY_PATH

网站搬家,感触颇多

耗费了大量的时间和精力,当然还有金钱,终于把Minidx.com搬到godaddy了,也有了自己的独立IP。可是域名转入转出的问题却依旧没有解决,中国的奸商们,什么时候才会有点风度啊。
Continue reading “网站搬家,感触颇多”

一个有用的宏定义

※作者:丁志刚  转载请注明:Minidx全文检索http://blog.minidx.com/2007/10/21/21.html

在cppblog上 发了篇《在删除一个指针delete p之前是否需要检查p是否为NULL?》,经过讨论,得到了一个比较实用的宏定义:

#define SAFE_DELETE(p) do{delete p; p=NULL;}while(false)

以前都是用if,先记下了,以后就这么用。:)