利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容

不少人对Google,Baidu等搜索引擎可以“找到”你放在服务器上的Word的Doc,Excel的xls以及Pdf等各种文件而感到惊叹不已,也有不少人发来邮件询问我Minidx文件管理器中从各种格式的文件中读取文本内容是如何实现的。Linux平台实现起来比较复杂一些,不过对于Windows用户来说,其实利用微软Ifilter的Indexing service接口,可以比较容易的实现上面的功能。Minidx支持200多种文件格式,其实也是利用了Ifilter的接口。实现的基本原理,就是写一个Com组件,去查找系统中相应文件格式的API接口所在的Dll路径,然后调用抽取文本。

Continue reading “利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容”

在FeedSky上创建了“原汁原味”博客圈

Home-48x48登陆到FeedSky,突然间发现自己可以创建博客圈了,因为希望看到的都是原创内容,所以取名“原汁原味”博客圈,欢迎支持博客原创者们加入—-原创者们需要一个可以聚会的地方!!
Update:删除了FeedSky的托管,所以这个博客圈也随之被删除,目前已经不存在了
Continue reading “在FeedSky上创建了“原汁原味”博客圈”

想去掉首页的“友情链接”(Blogroll)……

对于博客的友情链接,yiyix在《博文分享取代友情链接(一)》,《博文分享取代友情链接(二)》,qinai的《博客礼节从知识共享开始》,《不用友情链接如何传递PR?》等文章中,都有相关的讨论,并想着替换目前的友情链接。

Continue reading “想去掉首页的“友情链接”(Blogroll)……”

FeedSky新年送大礼–话题营销重大改版

随着2008元旦的来临,走到哪里都是“优惠”,“大促销”……互联网当然也热闹,FeedSky也对自己的话题营销进行了重大改版。

Continue reading “FeedSky新年送大礼–话题营销重大改版”

blogsvertise.com的申请以及付费评论使用的一些总结

Blog Ads

全文检索博客最近这段时间对博客赚钱进行了比较深入的体验,其中10月份开设本博客,未涉足博客赚钱领域,11月份赚取了30RMB,12月份赚取了40.75美元(不包括没有收到的),打算对其中感觉比较不错的进行一些总结。发现开博客的很多都是学生,对于一部分人来说也许域名和空间的费用也是一个不小的负担(我就看到过有一个学生采用分期付款的方式求购空间),全文检索博客并不鼓励大家追求博客的效益,仅仅是希望对一些热衷于博客但是经济上有一定困难的朋友们能有一些帮助。因为申请Blogsvertise时候直接和他们管理员交涉的比较多,先来介绍一下Blogsvertise

Blogsvertise是国外一家赞助博客联盟,也就是付费评论的交易平台。在Dosh的17 个赞助博客联盟列表中就有Blogsvertise。不过Blogsvertise并不像sponsoredreviews那样有市场可以让你选择,你不能浏览广告主的邀请来选择你写什么。Blogsvertise的管理员会根据广告主的要求来匹配你的博客资料,你可以选择接受或拒绝你得到的邀请。 这个做法和目前国内的FeedSky的话题营销比较相似。目前感觉广告主不是很多,如果博客比较优秀的话(比如有较大的访问量和比较高的PR),可能每周都可以接到一两篇邀请。Blogsvertise是月付,比如11月1号提交的评论,会到12月2号进行支付,支持PayPal支付,如果你还没有PayPal,那么可以参考《PayPal的注册以及使用中需要注意的一些问题》 进行注册。

Continue reading “blogsvertise.com的申请以及付费评论使用的一些总结”

cppblog遭到了soso的20多台服务器的攻击

从昨天晚上开始基本上就无法打开cppblog了,这种现象一直延续到了今天下午……没多久前dudu才更换了服务器,正在奇怪,看到dudu发了一篇《来自soso.com的攻击》,对这一现象的原因进行了说明,真是树大招风……原来是soso!想不到也想不通soso为什么会做这样的事情!下面是dudu的原文: Continue reading “cppblog遭到了soso的20多台服务器的攻击”

technorati.com认领贴顺便介绍一下technorati

Add to Technorati Favoritestechnorati是世界著名的一个搜索引擎,用来搜索blog内容。关键字搜索,tags搜索和引用链接搜索是technorati的主打功能。blogger可以利用它让更多人来访问blog文章。technorati使用完善的搜索功能,强大的数据处理引擎,通过一种索引机制,让你可以方便的提交文章,你只需要在自己文章中作些标记,technorati自动会将你的文章和你标记的tags放到他的可以查询的数据库里面。 Continue reading “technorati.com认领贴顺便介绍一下technorati”

SWIG发布1.3.33版本

SWIG是个帮助使用C或者C++编写的软件能与其它各种高级编程语言进行嵌入联接的开发工具,通俗的说就是用来封装C/C++开发包的语言“粘合剂”。是发布在SourceForge上的开源软件,英文官方地址http://www.swig.org,国内Swig的用户目前还非常少。Minidx搜索引擎2.0版本因为已经将搜索引擎功能模块独立出来,为了能够被C#,Php,Perl,ruby等众多C/C++以外的语言调用,引入了Swig,同时为了方便中文程序员,两个月前开始开展了Swig中文计划,计划将其翻译为中文,不过TT同学身体原因进展缓慢……人多力量大,众人拾柴火焰高~~~欢迎有兴趣的朋友加入。

Continue reading “SWIG发布1.3.33版本”

Google Reader又抓不到我在FeedSky烧制的feed了

之前因为绑定了http://feed.minidx.com到FeedSky,从电信和国外的一些地区无法访问二级域名已经好几个星期了,刚刚发现恢复正常没多久的Google Reader从21号开始又抓不到在FeedSky烧制的feed了…… Continue reading “Google Reader又抓不到我在FeedSky烧制的feed了”

双数组Trie(Double Array Trie)实现原理的一点剖析

曾经有人发来邮件询问《重写了Minidx的分词模块,实现了超高速分词(2007/09/08)》的实现原理并且希望我可以公开源代码,我回复了他的邮件告之我采用了Double Array Trie来构造我的字典并发了实现的C++代码,结果没多久这位同学告诉我没看懂其中算法的原理……

Continue reading “双数组Trie(Double Array Trie)实现原理的一点剖析”

从“公平”,“发展”的角度来看feedsky的话题营销

bwlogo最早看到blogger关于自己收不到FeedSky的话题营销是在yiyix的《为什么收不到Feedsky的话题邀请》,那也是我刚刚使用FeedSky服务的时候。在加入的短期间内就连续收到了2篇,以及最早的一篇公益评论,之后就一直都没有收到过了。因为国内这一市场处于发展初期,没有也很正常,所以一直都没有在意,不过最近看到oxygen在FeedSky的帮助中心发了《feedsky凭什么不给我话题广告?》以及xiaobaicai的《事关Feedsky话题广告》,让我忍不住的想从一个参与者的角度来“分析”一下FeedSky的话题营销。

Continue reading “从“公平”,“发展”的角度来看feedsky的话题营销”