textract 无法读取doc和docx文档的页眉和页脚部分,

zzwlnbp8  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(28)

如果支持的话,请提供相关文档链接。如果不支持,是否有计划支持?

qacovj5a

qacovj5a1#

我正在面临与textract相同的问题。这个问题仍然存在。请分享任何想法,如何支持读取doc/docx文件的页眉和页脚内容。

ioekq8ef

ioekq8ef2#

textract背后的理念是简单易用。因此,您可以使用相同的功能从多种文件格式中提取正文文本,即textract.process()。既然如此,我可以理解为什么需要提供访问doc(x)文件的页眉、页脚或电子邮件主题的功能。

在保持整个过程简单明了的同时,您打算如何添加此功能?如果您有任何想法,请分享它们或发起一个pull请求,我会很高兴地审查它们。

相关问题