ruby PDFNet:在Ubuntu 16.04和Ubuntu 20.04上,PDF输出文本的词序不同

mnowg1ta  于 2023-10-18  发布在  Ruby
关注(0)|答案(1)|浏览(97)

我使用PDFNet(版本9.308007)将PDF文件转换为文本格式。最近需要从Ubuntu 16.04升级到Ubuntu 20.04。问题是,在Ubuntu 20.04上使用PDFNet转换时,输出文件中的单词顺序发生了变化。例如:
Ubuntu 16.04
'\r\n -$14,309.29\r\n付款- 12/19/2022 -谢谢;
Ubuntu 20.04
'付款- 12/19/2022 -谢谢-$14,309.29\r\n'
我需要的单词顺序完全像第一个变体(Ubuntu 16.04)。将非常感激,如果会有至少一些线索,在哪里进一步挖掘。

q43xntqr

q43xntqr1#

假设不是PDF中的所有字体都是嵌入式的,那么问题就在于两个系统上安装了不同的字体,当PDFNet进行字体替换(针对非嵌入式字体)时,这些其他字体具有不同的度量和字形。字体度量和字形的这种细微差异会影响文本运行检测,并导致不同的文本提取输出。
更新Ubuntu 20系统,使其具有与Ubuntu 16系统相同的字体,这将导致相同的字体替换,因此相同的文本提取顺序。

相关问题