我正在使用DataLogic实用程序(Datalogics.PDFL)来操作PDF,我正面临着以下情况的问题。一个非英语文本的PDF得到奇怪的输出。
样本输入文件SS
获取相同的以下格式的输出:
WordFinderConfig wordConfig = new WordFinderConfig();
wordConfig.IgnoreCharGaps = false;
wordConfig.IgnoreLineGaps = false;
wordConfig.NoAnnots = false;
wordConfig.NoEncodingGuess = false;
// Std Roman treatment for custom encoding; overrides the noEncodingGuess option
wordConfig.UnknownToStdEnc = true;
wordConfig.DisableTaggedPDF = false; // legacy mode WordFinder creation
wordConfig.NoXYSort = true;
wordConfig.PreserveSpaces = false;
wordConfig.NoLigatureExp = false;
wordConfig.NoHyphenDetection = false;
wordConfig.TrustNBSpace = false;
wordConfig.NoExtCharOffset = false; // text extraction efficiency
wordConfig.NoStyleInfo = false; // text extraction efficiency
WordFinder wordFinder = new WordFinder(doc, WordFinderVersion.Latest, wordConfig);
1条答案
按热度按时间ufj5ltwl1#
我建议您升级到最新版本(例如通过Nuget),如果您仍然遇到有问题的文本提取结果,请联系我们的(Datalogics得利捷)支持部门寻求帮助,并为他们提供输入文档和可运行的样本以供复制。