如何在Python(Mac)中将扫描的PDF转换为可搜索的PDF？例如OCRMYPDF模块

ghhkc1vu 于 2023-02-01 发布在 Python

关注(0)|答案(3)|浏览(358)

我正在用python写一个程序，可以读取pdf文档，从文档中提取文本，并使用提取的文本重命名文档，一开始扫描的pdf文档是不可搜索的，我想在Python上将pdf转换为可搜索的pdf，而不是使用谷歌doc，Cisdem pdf转换器。
我读过关于ocrmypdf模块可以用来解决这个问题。但是，由于我的知识有限，我不知道如何编写代码。
我希望输出转换成可搜索的pdf扫描pdf。

python-3.x

来源：https://stackoverflow.com/questions/57398839/how-do-i-convert-scanned-pdf-into-searchable-pdf-in-python-mac-e-g-ocrmypdf

3条答案

按热度按时间

wkftcu5l1#

我建议通过turoial工作，可能会花你一些时间，但它应该是值得的。
我不确定您到底想要什么。在我的项目中，下面的设置在大多数情况下都能正常工作。
import ocrmypdf , tesseract def ocr(file_path, save_path): ocrmypdf.ocr(file_path, save_path, rotate_pages=True, remove_background=True,language="en", deskew=True, force_ocr=True)

赞(0）回复(0）举报 2023-02-01

wz3gfoph2#

我也面临过扫描pdf文件的同样问题。我找到了用这3行代码来处理这个问题的解决方案。这个代码可以将扫描的pdf文档转换成可搜索的，并在pdf文档中选择一个文本。

import ocrmypdf
def scannedPdfConverter(file_path, save_path):
    ocrmypdf.ocr(file_path, save_path, skip_text=True)
    print('File converted successfully!')

赞(0）回复(0）举报 2023-02-01

iyfjxgzm3#

这可以通过两个步骤完成：
1.创建Python OCR函数

import ocrmypdf

def ocr(file_path, save_path):
   ocrmypdf.ocr(file_path, save_path)

1.调用并使用函数。

ocr("input.pdf","output.pdf")

赞(0）回复(0）举报 2023-02-01

我来回答

如何在Python(Mac)中将扫描的PDF转换为可搜索的PDF？例如OCRMYPDF模块

3条答案

相关问题

热门标签

最新问答