我的最终目标是使用lucene索引文档。由于lucene不支持索引其他格式。我想将这些文件转换为txt/html(lucene可索引的文件类型)。我有一套文档几乎1000个文件的ppt,pdf,doc,xl等请帮助我
yhived7q1#
您可以使用OpenOffice headless将文件从一种格式转换为另一种格式,例如将Excel/Doc转换为TXT/HTML。我们使用类似的流程与ImageMagick相结合,允许人们将办公文档上传到演示应用程序中。下面是一些关于如何实现这一点的示例/教程:
安装OpenOffice
http://code.google.com/p/openmeetings/wiki/OpenOfficeConverter
JOD转换器(Java)
http://artofsolving.com/opensource/jodconverter
PyOD转换器(Python)
http://artofsolving.com/opensource/pyodconverter如果你需要更多关于OOo的帮助,请随时询问祝你好运:)
edqdpe6u2#
你现在(2022)有一个Python开源代码可以做到这一点:https://github.com/shakiyam/pptx2txt
2条答案
按热度按时间yhived7q1#
您可以使用OpenOffice headless将文件从一种格式转换为另一种格式,例如将Excel/Doc转换为TXT/HTML。
我们使用类似的流程与ImageMagick相结合,允许人们将办公文档上传到演示应用程序中。
下面是一些关于如何实现这一点的示例/教程:
安装OpenOffice
http://code.google.com/p/openmeetings/wiki/OpenOfficeConverter
JOD转换器(Java)
http://artofsolving.com/opensource/jodconverter
PyOD转换器(Python)
http://artofsolving.com/opensource/pyodconverter
如果你需要更多关于OOo的帮助,请随时询问
祝你好运:)
edqdpe6u2#
你现在(2022)有一个Python开源代码可以做到这一点:https://github.com/shakiyam/pptx2txt