用python阅读PDF回执[副本]

jjhzyzn0  于 2023-01-04  发布在  Python
关注(0)|答案(1)|浏览(107)
    • 此问题在此处已有答案**:

(32个答案)
2小时前关门了。
enter image description here
我有一些项目代码(数字)在收据上的pdf格式,像上面。我怎么能阅读代码与程序?谢谢。
没有特殊字符标记代码。每个pdf中的文本格式不一样。将pdf转换为word和文本文件。

byqmnocz

byqmnocz1#

这是How can I read pdf in python?的副本。
用Python阅读文本并不复杂,基于你上面的描述,很难理解你试图涵盖的变化(在阅读的文本中)的规模。
阅读文本是工作的一半。理解它并为阅读文本设置上下文是另一项工作。它有许多中间步骤,这取决于你试图瞄准的复杂性。
如果您可以使用正则表达式定义您试图读取的模式,则无需深入自然语言处理和机器学习等更深入、更复杂的领域,就可以完成这项工作。
这里是一个正则表达式的例子,你提供的字符串,注意模式可能不匹配,因为我已经定义了正则表达式规则的基础上,某些标准可能不是你要找的,但这应该说明正则表达式可以帮助解析结构化字符串:
字符串数据:885911248648 DW 1/4位4.78正则表达式:\d\d\d\d\d\d\d\d\d\d\d\sDW\s\d/\d\s位\s\s\s\s\s\s\s\s\s\d.\d\d Python中的应用程序:

import re
    def use_regex(input_text):
    pattern = re.compile(r"\d\d\d\d\d\d\d\d\d\d\d\d\sDW\s\d/\d\sBit <A>\s\s\s\s\s\s\s\s\s\s\s\d\.\d\d", re.IGNORECASE)
    return pattern.match(input_text)

使用this工具生成的RegEx模式。

相关问题