.net 非英语PDF的PDF到文本提取

yeotifhr  于 2023-01-18  发布在  .NET
关注(0)|答案(1)|浏览(133)

我正在使用DataLogic实用程序(Datalogics.PDFL)来操作PDF,我正面临着以下情况的问题。一个非英语文本的PDF得到奇怪的输出。
样本输入文件SS

获取相同的以下格式的输出:

WordFinderConfig wordConfig = new WordFinderConfig();
            wordConfig.IgnoreCharGaps = false;
            wordConfig.IgnoreLineGaps = false;
            wordConfig.NoAnnots = false;
            wordConfig.NoEncodingGuess = false;

            // Std Roman treatment for custom encoding; overrides the noEncodingGuess option
            wordConfig.UnknownToStdEnc = true;

            wordConfig.DisableTaggedPDF = false;    // legacy mode WordFinder creation
            wordConfig.NoXYSort = true;
            wordConfig.PreserveSpaces = false;
            wordConfig.NoLigatureExp = false;
            wordConfig.NoHyphenDetection = false;
            wordConfig.TrustNBSpace = false;
            wordConfig.NoExtCharOffset = false;     // text extraction efficiency
            wordConfig.NoStyleInfo = false;         // text extraction efficiency

            WordFinder wordFinder = new WordFinder(doc, WordFinderVersion.Latest, wordConfig);
ufj5ltwl

ufj5ltwl1#

我建议您升级到最新版本(例如通过Nuget),如果您仍然遇到有问题的文本提取结果,请联系我们的(Datalogics得利捷)支持部门寻求帮助,并为他们提供输入文档和可运行的样本以供复制。

相关问题