所以我有一个议程的pdf模板,我想知道的是如何检测日期应该在哪里。假设模板中有一个单词“date:”。之后,我想添加相应的日期/文本旁边的空间,使我检测到“日期:”和写后,它看起来像“日期:13/02/2020”,并保存为一个新的pdf格式
cngwdvgl1#
您将问题标记为java和python-3.x。这使得它非常广泛。因此,我的回答也是一般性的,而不是具体的。一般来说,你应该决定你要哪种语言。为了完成任务,你需要做两件事,首先对pdf应用带坐标的文本提取,在文本中搜索日期标记,并确定文本后面的坐标;有些库允许使用快捷方式,并且有只提取与正则表达式及其坐标匹配的文本的例程;然后在这些坐标处向内容添加文本。java和python的核心都没有明确的pdf支持。因此,对于您的任务,您必须为这些任务选择一个pdf库(理论上,您可以尝试实现自己的pdf处理例程,但pdf格式非常复杂,因此通常需要很长时间。)因此,您首先应该检查所选语言的通用pdf库最适合这些任务和其他要求(如许可)。有许多问题和答案堆栈溢出有关的文本提取,可以帮助您选择。不过,有些警告的话,并不是所有的PDF都允许正确的文本提取。有一些pdf生成器,它们不会将文本提取所需的信息添加到pdf中;有些甚至添加了误导性的信息。因此,您可能不得不拒绝某些模板。或者,如果模板是固定的,只需通过在pdf查看器中测量或试错来确定文本插入的正确坐标。如果您仍然对需求有影响,建议使用带有pdf acroform字段的模板。表单字段填充允许模板设计器对填充的定位和样式进行更多的控制,并且填充比上面概述的过程更容易。如果您不想在结果PDF中使用表单字段,只需在填充后展平表单即可。
1条答案
按热度按时间cngwdvgl1#
您将问题标记为java和python-3.x。这使得它非常广泛。因此,我的回答也是一般性的,而不是具体的。一般来说,你应该决定你要哪种语言。
为了完成任务,你需要做两件事,
首先对pdf应用带坐标的文本提取,在文本中搜索日期标记,并确定文本后面的坐标;有些库允许使用快捷方式,并且有只提取与正则表达式及其坐标匹配的文本的例程;
然后在这些坐标处向内容添加文本。
java和python的核心都没有明确的pdf支持。因此,对于您的任务,您必须为这些任务选择一个pdf库(理论上,您可以尝试实现自己的pdf处理例程,但pdf格式非常复杂,因此通常需要很长时间。)
因此,您首先应该检查所选语言的通用pdf库最适合这些任务和其他要求(如许可)。有许多问题和答案堆栈溢出有关的文本提取,可以帮助您选择。
不过,有些警告的话,并不是所有的PDF都允许正确的文本提取。有一些pdf生成器,它们不会将文本提取所需的信息添加到pdf中;有些甚至添加了误导性的信息。因此,您可能不得不拒绝某些模板。或者,如果模板是固定的,只需通过在pdf查看器中测量或试错来确定文本插入的正确坐标。
如果您仍然对需求有影响,建议使用带有pdf acroform字段的模板。表单字段填充允许模板设计器对填充的定位和样式进行更多的控制,并且填充比上面概述的过程更容易。如果您不想在结果PDF中使用表单字段,只需在填充后展平表单即可。