textract 启用pdftotext中的原生命令行参数

wdebmtf2  于 4个月前  发布在  其他
关注(0)|答案(2)|浏览(98)

我希望能通过命令行参数传递pdftotext实际可以处理的内容。有些参数可以在提取的文本中产生很大的不同,从而减少后续在txt中的抓取工作。

cig3rfwq

cig3rfwq1#

参考一下,@miguelfg 和我有 this conversation on twitter ,这在这里是相关的。基本的想法是使它成为可能,将任意的命令行参数传递到不同的解析器中。对于命令行解析器,显然我们应该能够适应这一点。

ktca8awb

ktca8awb2#

刚刚遇到需要这个来使用pdfminer
如果方法都是一个单词,那么在方法中直接指定参数会变得多么难以阅读呢?
方法="pdfminer -M 4.1"
如果没有
解析器="-M 4.1"

相关问题