您的功能请求是否与问题相关?请描述。
Antiword已经有一段时间没有更新了,现在源文件完全消失了。使用另一种方式解析Word文件会更好。
textract应该支持哪种文件类型?
docx
哪个外部软件(Python或命令行工具)可以解析请求的文件类型?
https://pypi.org/project/docx-parser/
描述您考虑过的替代方案
目前没有任何操作,包管理器删除了antiword及其所有依赖项,包括textract。
附加上下文
您的功能请求是否与问题相关?请描述。
Antiword已经有一段时间没有更新了,现在源文件完全消失了。使用另一种方式解析Word文件会更好。
textract应该支持哪种文件类型?
docx
哪个外部软件(Python或命令行工具)可以解析请求的文件类型?
https://pypi.org/project/docx-parser/
描述您考虑过的替代方案
目前没有任何操作,包管理器删除了antiword及其所有依赖项,包括textract。
附加上下文
2条答案
按热度按时间agxfikkp1#
根据documentation,反向词用于parsing旧的MS Word二进制doc文件(Word 97-2003),而更新的MS Word docx文件是parsed。不清楚docx-parser如何帮助处理前Word 97-2003文件。
需要考虑的一个问题是,doc扩展名可以是Word 97-2003或更新的Word文件。
也许abiword在这方面可以成为更好的替代方案。
zujrkrfu2#
感谢您指出这一点,我一定是误解了antiword实际上是用来做什么的。实际上我并不使用textract,所以很遗憾我无法在考虑Abiword方面提供太多帮助,我只是想确保这里的团队意识到Antiword的消失。