如何在Python(Mac)中将扫描的PDF转换为可搜索的PDF?例如OCRMYPDF模块

ghhkc1vu  于 2023-02-01  发布在  Python
关注(0)|答案(3)|浏览(359)

我正在用python写一个程序,可以读取pdf文档,从文档中提取文本,并使用提取的文本重命名文档,一开始扫描的pdf文档是不可搜索的,我想在Python上将pdf转换为可搜索的pdf,而不是使用谷歌doc,Cisdem pdf转换器。
我读过关于ocrmypdf模块可以用来解决这个问题。但是,由于我的知识有限,我不知道如何编写代码。
我希望输出转换成可搜索的pdf扫描pdf。

wkftcu5l

wkftcu5l1#

我建议通过turoial工作,可能会花你一些时间,但它应该是值得的。
我不确定您到底想要什么。在我的项目中,下面的设置在大多数情况下都能正常工作。
import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

wz3gfoph

wz3gfoph2#

我也面临过扫描pdf文件的同样问题。我找到了用这3行代码来处理这个问题的解决方案。这个代码可以将扫描的pdf文档转换成可搜索的,并在pdf文档中选择一个文本。

import ocrmypdf
def scannedPdfConverter(file_path, save_path):
    ocrmypdf.ocr(file_path, save_path, skip_text=True)
    print('File converted successfully!')
iyfjxgzm

iyfjxgzm3#

这可以通过两个步骤完成:
1.创建Python OCR函数

import ocrmypdf

def ocr(file_path, save_path):
   ocrmypdf.ocr(file_path, save_path)

1.调用并使用函数。

ocr("input.pdf","output.pdf")

相关问题