利用Minidx Extract-Text Com组件封装类的实现

这个主要是为解决PP提出的频繁初始化Com时效率问题。很抱歉这其实并不是一个封装的类,例子中只是将ITextExtractor指针设为全局变量,一次初始化,多次重复使用而已 (注意按下File选择文件的时候每次用的都是同一个指针),最后在按下退出程序的时候释放。不过原理是一样的,例子中ITextExtractor的指针进行封装就可以了。

具体的封装大家可以自己根据需要去实现,前提条件是保持ITextExtractor指针不被改变就可以了. 由于CoCreateInstance的关系,建议封装为SingleTon模式。

Continue reading “利用Minidx Extract-Text Com组件封装类的实现”

利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC2003 Demo

所有的用法与说明都和利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC Demo一样,区别只是前面的工程是用VC2005创建的,而这次的工程是用VC2003创建的。

源代码可以从这里下载Doc,Xls,Pdf等文件中抽取文本的Com组件及Demo(VC2003++)源代码)

Continue reading “利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC2003 Demo”

利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC Demo

folder-find-48x48利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》中具体的说明了Vb.Net中调用Minidx Extract-Text Com组件对Word,Excel,Pdf等各种文件进行文本抽取的用法。结果很多人都发邮件过来询问C++中如何调用(一些邮件会被Gmail判断为垃圾邮件……强烈建议有问题直接在本文后面留言或在这里提问,这样也可以减轻一点我的工作量,不必挨个回复)。抽空作了一个VC的Demo,工程用VS2005创建的,Unicode版本。下面对Demo稍微做一些说明,一些基本原理直接参照《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》就可以了,这里不再重复。

Continue reading “利用Minidx Extract-Text Com组件从doc,Xls,Pdf……等读取文本内容VC Demo”

利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容

不少人对Google,Baidu等搜索引擎可以“找到”你放在服务器上的Word的Doc,Excel的xls以及Pdf等各种文件而感到惊叹不已,也有不少人发来邮件询问我Minidx文件管理器中从各种格式的文件中读取文本内容是如何实现的。Linux平台实现起来比较复杂一些,不过对于Windows用户来说,其实利用微软Ifilter的Indexing service接口,可以比较容易的实现上面的功能。Minidx支持200多种文件格式,其实也是利用了Ifilter的接口。实现的基本原理,就是写一个Com组件,去查找系统中相应文件格式的API接口所在的Dll路径,然后调用抽取文本。

Continue reading “利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容”