我正在使用pytesseract对图像进行OCR。我有3-4页长的报表PDF。我需要一种方法将它们转换为多个.jpg/.png图像,并逐个对这些图像进行OCR。截至目前,我正在将单个页面转换为图像,然后运行
text=str(pytesseract.image_to_string(Image.open("imagename.jpg"),lang='eng'))
之后我使用正则表达式来提取信息并创建一个 Dataframe 。正则表达式逻辑对所有页面都是相同的。可以理解的是,如果我可以在循环中读取图像文件,该过程可以自动用于任何相同格式的PDF格式。
3条答案
按热度按时间ebdffaop1#
PyMuPDF是另一个循环浏览图像文件的选项,下面是实现方法:
这是非常方便的,取决于你想如何处理pdf文件。关于PyMuPDF的更详细的信息,这些链接可能会有帮助:PyMuPDF和git for PyMuPDF教程
希望这个有用。
page = doc.loadPage(pageNo)
之后,只需执行以下操作就足够了:免责声明:以上使用
blocks
的想法来自repo维护者。更详细的信息可以在这里找到:issues discussion on gitxlpyo6sf2#
answer from liamsuma似乎已被弃用。
这对我很有效(Python 3.9):
c7rzv4ha3#
对我来说以下作品
现在的问题是读取tiff文件中的每一页。因为如果我提取为
它将仅对第一页进行OCR