textract PDF解析器:链式使用pdftotext/pdfminer和tesseract,

bqujaahr  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(43)

在第66条(评论)中,@pudo提出了这个想法,我想确保在忘记之前抓住它。

目前pdf解析器的工作方式是,你必须事先知道pdf是否为扫描图像,或者它是否嵌入了文本。这对最终用户来说是不方便的。一个更好的选择应该是:

beq87vna

beq87vna1#

现在我在想,这也与 #50#51#52 有关,它们的目标是为现有的命令行实现提供一些可行的Python替代方案,以防有人无法在他们的系统上安装所有所需的系统包。

总的来说,如果能想出一些简单明了的方法来实现可靠的回退行为,使textract尽可能容易使用,那将是非常好的。一种可能的实现方法是有一个按文本提取精度排序的方法列表(自然回退到尝试其他方法),当“最佳猜测”不起作用时。我相信其他程序已经考虑过这种行为;有什么建议吗?

iyfamqjs

iyfamqjs2#

Are there any news on this?

3ks5zfa0

3ks5zfa03#

没有,如果你觉得有用的话,请随意合并PR;欢迎贡献 @Ninoninoninonino

相关问题