你好,textract库的process方法默认会将提取的文本写入到当前目录下的stdout.txt文件中。如果你想要指定输出文件名,可以在process方法中添加output_file参数,例如:
import textract t = textract.process('xxxx_13_04-01-2017_p2.jpg', method='tesseract', language='ita', output_file='output.txt')
omvjsjqw1#
由于textract在处理某些pdf文件时能够正常工作,我没有意识到出了问题。我再次查看了安装日志,发现与swig相关的警告。这可能是导致奇怪行为(进程不返回文本)的原因。如果有人能证实这一点,那么这将成为一个关于SWIG的求助请求。
1条答案
按热度按时间omvjsjqw1#
由于textract在处理某些pdf文件时能够正常工作,我没有意识到出了问题。我再次查看了安装日志,发现与swig相关的警告。这可能是导致奇怪行为(进程不返回文本)的原因。如果有人能证实这一点,那么这将成为一个关于SWIG的求助请求。