textract 为更多图像类型添加支持

kq4fsx7k 于 5个月前发布在其他

关注(0)|答案(4)|浏览(114)

一个整洁的技巧来支持更多的图像类型可能是使用Pillow库，它可以在运行时进行转换为png或其他可以轻松输入OCR的内容。

textract

来源：https://github.com/deanmalmgren/textract/issues/98

4条答案

按热度按时间

busg9geu1#

👍 PR's greatly accepted!
你想象中支持的图像类型，textract目前不支持吗？

赞(0）回复(0）举报 5个月前

4dbbbstv2#

我会快速看一下代码，只是为了提供一个我在这里谈论的例子。这是一些最近我做过的工作中提取的代码(它使用了流，因为我试图不创建太多临时文件)

$x_1a^0b^1^x$

赞(0）回复(0）举报 5个月前

ecfsfe2w3#

这可能是一个很好的使用mimetypes的案例。如果我们检测到某个东西具有图像mimetype,我们可以在tesseract从X中提取文本之前让PIL将其转换为X。
我非常喜欢你避免使用临时文件的习惯。我并不自豪于textract目前经常发生这种情况。挑战在于许多命令行实用程序不会写入stdout(在我写这段话的时候，我怀疑这是否是情况，但我记得这是tesseract的一个特别烦人的问题)。在这方面的任何清理工作都将受到欢迎！
再次感谢您分享关于如何改进textract的想法！

赞(0）回复(0）举报 5个月前

1yjd4xko4#

你能写入一个流吗？

赞(0）回复(0）举报 5个月前