lucene 如何将pdf,ppt,xl,doc文件转换为txt/html文件...有可用的php/python/perl开源工具/代码吗?

kq0g1dla  于 2022-11-07  发布在  Lucene
关注(0)|答案(2)|浏览(182)

我的最终目标是使用lucene索引文档。由于lucene不支持索引其他格式。我想将这些文件转换为txt/html(lucene可索引的文件类型)。我有一套文档几乎1000个文件的ppt,pdf,doc,xl等请帮助我

yhived7q

yhived7q1#

您可以使用OpenOffice headless将文件从一种格式转换为另一种格式,例如将Excel/Doc转换为TXT/HTML。
我们使用类似的流程与ImageMagick相结合,允许人们将办公文档上传到演示应用程序中。
下面是一些关于如何实现这一点的示例/教程:

安装OpenOffice

http://code.google.com/p/openmeetings/wiki/OpenOfficeConverter

JOD转换器(Java)

http://artofsolving.com/opensource/jodconverter

PyOD转换器(Python)

http://artofsolving.com/opensource/pyodconverter
如果你需要更多关于OOo的帮助,请随时询问
祝你好运:)

edqdpe6u

edqdpe6u2#

你现在(2022)有一个Python开源代码可以做到这一点:https://github.com/shakiyam/pptx2txt

相关问题