textract 为更多图像类型添加支持

kq4fsx7k  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(50)

一个整洁的技巧来支持更多的图像类型可能是使用Pillow库,它可以在运行时进行转换为png或其他可以轻松输入OCR的内容。

busg9geu

busg9geu1#

👍 PR's greatly accepted!
你想象中支持的图像类型,textract目前不支持吗?

4dbbbstv

4dbbbstv2#

我会快速看一下代码,只是为了提供一个我在这里谈论的例子。这是一些最近我做过的工作中提取的代码(它使用了流,因为我试图不创建太多临时文件)

$x_1a^0b^1^x$

ecfsfe2w

ecfsfe2w3#

这可能是一个很好的使用mimetypes的案例。如果我们检测到某个东西具有图像mimetype,我们可以在tesseract从X中提取文本之前让PIL将其转换为X。
我非常喜欢你避免使用临时文件的习惯。我并不自豪于textract目前经常发生这种情况。挑战在于许多命令行实用程序不会写入stdout(在我写这段话的时候,我怀疑这是否是情况,但我记得这是tesseract的一个特别烦人的问题)。在这方面的任何清理工作都将受到欢迎!
再次感谢您分享关于如何改进textract的想法!

1yjd4xko

1yjd4xko4#

你能写入一个流吗?

相关问题