用python阅读PDF回执[副本]

jjhzyzn0 于 2023-01-04 发布在 Python

关注(0)|答案(1)|浏览(122)

- 此问题在此处已有答案**：

（32个答案）
2小时前关门了。
enter image description here
我有一些项目代码（数字）在收据上的pdf格式，像上面。我怎么能阅读代码与程序？谢谢。
没有特殊字符标记代码。每个pdf中的文本格式不一样。将pdf转换为word和文本文件。

python

来源：https://stackoverflow.com/questions/74997632/read-pdf-receipt-with-python

1条答案

按热度按时间

byqmnocz1#

这是How can I read pdf in python?的副本。
用Python阅读文本并不复杂，基于你上面的描述，很难理解你试图涵盖的变化（在阅读的文本中）的规模。
阅读文本是工作的一半。理解它并为阅读文本设置上下文是另一项工作。它有许多中间步骤，这取决于你试图瞄准的复杂性。
如果您可以使用正则表达式定义您试图读取的模式，则无需深入自然语言处理和机器学习等更深入、更复杂的领域，就可以完成这项工作。
这里是一个正则表达式的例子，你提供的字符串，注意模式可能不匹配，因为我已经定义了正则表达式规则的基础上，某些标准可能不是你要找的，但这应该说明正则表达式可以帮助解析结构化字符串：
字符串数据：885911248648 DW 1/4位4.78正则表达式：\d\d\d\d\d\d\d\d\d\d\d\sDW\s\d/\d\s位\s\s\s\s\s\s\s\s\s\d.\d\d Python中的应用程序：

import re
    def use_regex(input_text):
    pattern = re.compile(r"\d\d\d\d\d\d\d\d\d\d\d\d\sDW\s\d/\d\sBit <A>\s\s\s\s\s\s\s\s\s\s\s\d\.\d\d", re.IGNORECASE)
    return pattern.match(input_text)

使用this工具生成的RegEx模式。

赞(0）回复(0）举报 2023-01-04

我来回答

用python阅读PDF回执[副本]

1条答案

相关问题

热门标签

最新问答