在文件 lang.py 中,我看到了库 langdetect
的使用。
在同一文件中,有一个名为 detect_languages() 的函数,但看起来 partition_pdf
和 partition_via_api
在处理 PDF 时并未使用它。
如果这是真的,那么为什么 partition_pdf
和 partition_via_api
没有用它来自动检测 PDF 的语言呢?
正因如此,我们不得不手动在参数 languages
中填写 PDF 的语言列表。
我是不是遗漏了什么?
1条答案
按热度按时间z6psavjg1#
+1,好问题。我也遇到了处理PDF(里面有两语言文本)的问题,它可以处理英文,但不能处理中文。