Apr 13
这个主要是为解决PP提出的频繁初始化Com时效率问题。很抱歉这其实并不是一个封装的类,例子中只是将ITextExtractor指针设为全局变量,一次初始化,多次重复使用而已 (注意按下File选择文件的时候每次用的都是同一个指针),最后在按下退出程序的时候释放。不过原理是一样的,例子中ITextExtractor的指针进行封装就可以了。
具体的封装大家可以自己根据需要去实现,前提条件是保持ITextExtractor指针不被改变就可以了. 由于CoCreateInstance的关系,建议封装为SingleTon模式。
Continue reading »
written by Minidxer
| tags: Com组件, doc, Extract Text, Minidx, 搜索引擎
Mar 29
所有的用法与说明都和利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC Demo一样,区别只是前面的工程是用VC2005创建的,而这次的工程是用VC2003创建的。
源代码可以从这里下载(Doc,Xls,Pdf等文件中抽取文本的Com组件及Demo(VC2003++)源代码)
Continue reading »
written by Minidxer
| tags: Com组件, Extract Text, Minidx, VC2003, 文本抽出
Jan 10
《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中具体的说明了Vb.Net中调用Minidx Extract-Text Com组件对Word,Excel,Pdf等各种文件进行文本抽取的用法。结果很多人都发邮件过来询问C++中如何调用(一些邮件会被Gmail判断为垃圾邮件……强烈建议有问题直接在本文后面留言或在这里提问,这样也可以减轻一点我的工作量,不必挨个回复)。抽空作了一个VC的Demo,工程用VS2005创建的,Unicode版本。下面对Demo稍微做一些说明,一些基本原理直接参照《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》就可以了,这里不再重复。
Continue reading »
written by Minidxer
| tags: C++, Com组件, doc, Extract Text, IFilter, indexing service, Minidx, pdf, VC.net, xls, 搜索引擎
Dec 31
不少人对Google,Baidu等搜索引擎可以“找到”你放在服务器上的Word的Doc,Excel的xls以及Pdf等各种文件而感到惊叹不已,也有不少人发来邮件询问我Minidx文件管理器中从各种格式的文件中读取文本内容是如何实现的。Linux平台实现起来比较复杂一些,不过对于Windows用户来说,其实利用微软Ifilter的Indexing service接口,可以比较容易的实现上面的功能。Minidx支持200多种文件格式,其实也是利用了Ifilter的接口。实现的基本原理,就是写一个Com组件,去查找系统中相应文件格式的API接口所在的Dll路径,然后调用抽取文本。
Continue reading »
written by Minidxer
| tags: C++, Com组件, doc, Extract Text, IFilter, indexing service, Minidx, pdf, VB.net, xls, 搜索引擎
Dec 25
SWIG是个帮助使用C或者C++编写的软件能与其它各种高级编程语言进行嵌入联接的开发工具,通俗的说就是用来封装C/C++开发包的语言“粘合剂”。是发布在SourceForge上的开源软件,英文官方地址http://www.swig.org,国内Swig的用户目前还非常少。Minidx搜索引擎2.0版本因为已经将搜索引擎功能模块独立出来,为了能够被C#,Php,Perl,ruby等众多C/C++以外的语言调用,引入了Swig,同时为了方便中文程序员,两个月前开始开展了Swig中文计划,计划将其翻译为中文,不过TT同学身体原因进展缓慢……人多力量大,众人拾柴火焰高~~~欢迎有兴趣的朋友加入。
Continue reading »
written by Minidxer
| tags: Minidx, SourceForge, Swig, 封装, 嵌入, 开源, 搜索引擎
Dec 24
曾经有人发来邮件询问《重写了Minidx的分词模块,实现了超高速分词(2007/09/08)》的实现原理并且希望我可以公开源代码,我回复了他的邮件告之我采用了Double Array Trie来构造我的字典并发了实现的C++代码,结果没多久这位同学告诉我没看懂其中算法的原理……
Continue reading »
written by Minidxer
| tags: darts, DAT, datrie, Double Array Trie, mecab, Minidx, 双数组, 实现原理
Dec 12
其实这里提供的中文词库是是Sucirst转发给我的,“做任何搜索或者其他应用的词库都不是一个人能完成的,原来在和一些朋友讨论的时候得到了附件中的资料,是用于Lucene的中文UTF-8词库,也许对你也能有些帮助……”,Minidx
目前拥有非常庞大的词库而没有使用这一词库,不过非常感谢Sucirst,呵呵,正如Sucirst所说的,也许有人需要,所以在这里传上来,在http://cn.minidx.com/index.php?option=com_docman&task=cat_view&gid=17 (相关文档资料中)下载
written by Minidxer
| tags: Minidx, UTF8, 中文分词, 中文词库, 字典, 编码
Dec 11
自从11月20日发布了
Minidx.RC1.1.Installer.exe,因为情绪的问题就没碰过Minidx了。今天想起来到http://minidx.com看看,发现http://minidx.com和http://cn.minidx.com 下的Minidx.RC1.1.Installer.exe版本下载量分别为1341和1282,http://jp.minidx.com 下也有127,这是因为Minidx已经收录与Vector(这里),而鬼子们习惯于在这里下载,加起来也已经超过1K了~Minidx全文检索引擎2.0开发完成已经有一段时间了,一直懒得集成到Minidx系统中,呵呵,看来还是要整顿整顿心情,继续~~~
written by Minidxer
| tags: Minidx, 全文检索, 搜索引擎, 文件管理
Nov 10
因为这次更换空间提供商这个事情,浪费了不少时间,这几周都没碰过Minidx的代码……就当休了一个假吧,明天开始要继续了~~~~
written by Minidxer
| tags: Minidx, 空间提供商, 虚拟主机
Nov 05
也许这样做很傻,停止了自己购买的域名Minidx.cn的解析,同时也停用了国内购买的空间,仅表示一下自己的一些不满吧。
written by Minidxer
| tags: Minidx, 域名, 空间, 解析