在第66条(评论)中,@pudo提出了这个想法,我想确保在忘记之前抓住它。
目前pdf解析器的工作方式是,你必须事先知道pdf是否为扫描图像,或者它是否嵌入了文本。这对最终用户来说是不方便的。一个更好的选择应该是:
beq87vna1#
现在我在想,这也与 #50 、 #51 和 #52 有关,它们的目标是为现有的命令行实现提供一些可行的Python替代方案,以防有人无法在他们的系统上安装所有所需的系统包。
总的来说,如果能想出一些简单明了的方法来实现可靠的回退行为,使textract尽可能容易使用,那将是非常好的。一种可能的实现方法是有一个按文本提取精度排序的方法列表(自然回退到尝试其他方法),当“最佳猜测”不起作用时。我相信其他程序已经考虑过这种行为;有什么建议吗?
iyfamqjs2#
Are there any news on this?
3ks5zfa03#
没有,如果你觉得有用的话,请随意合并PR;欢迎贡献 @Ninoninoninonino
3条答案
按热度按时间beq87vna1#
现在我在想,这也与 #50 、 #51 和 #52 有关,它们的目标是为现有的命令行实现提供一些可行的Python替代方案,以防有人无法在他们的系统上安装所有所需的系统包。
总的来说,如果能想出一些简单明了的方法来实现可靠的回退行为,使textract尽可能容易使用,那将是非常好的。一种可能的实现方法是有一个按文本提取精度排序的方法列表(自然回退到尝试其他方法),当“最佳猜测”不起作用时。我相信其他程序已经考虑过这种行为;有什么建议吗?
iyfamqjs2#
Are there any news on this?
3ks5zfa03#
没有,如果你觉得有用的话,请随意合并PR;欢迎贡献 @Ninoninoninonino