.net 非英语PDF的PDF到文本提取

yeotifhr 于 2023-01-18 发布在 .NET

关注(0)|答案(1)|浏览(133)

我正在使用DataLogic实用程序（Datalogics.PDFL）来操作PDF，我正面临着以下情况的问题。一个非英语文本的PDF得到奇怪的输出。
样本输入文件SS

获取相同的以下格式的输出：

WordFinderConfig wordConfig = new WordFinderConfig();
            wordConfig.IgnoreCharGaps = false;
            wordConfig.IgnoreLineGaps = false;
            wordConfig.NoAnnots = false;
            wordConfig.NoEncodingGuess = false;

            // Std Roman treatment for custom encoding; overrides the noEncodingGuess option
            wordConfig.UnknownToStdEnc = true;

            wordConfig.DisableTaggedPDF = false;    // legacy mode WordFinder creation
            wordConfig.NoXYSort = true;
            wordConfig.PreserveSpaces = false;
            wordConfig.NoLigatureExp = false;
            wordConfig.NoHyphenDetection = false;
            wordConfig.TrustNBSpace = false;
            wordConfig.NoExtCharOffset = false;     // text extraction efficiency
            wordConfig.NoStyleInfo = false;         // text extraction efficiency

            WordFinder wordFinder = new WordFinder(doc, WordFinderVersion.Latest, wordConfig);

.net

来源：https://stackoverflow.com/questions/73771255/pdf-to-text-extraction-for-non-english-language-pdf