unstructured (PDF) 如何让 partition_pdf 和 partition_via_api 自动检测 PDF 的语言?

xe55xuns  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(66)

在文件 lang.py 中,我看到了库 langdetect 的使用。
在同一文件中,有一个名为 detect_languages() 的函数,但看起来 partition_pdfpartition_via_api 在处理 PDF 时并未使用它。
如果这是真的,那么为什么 partition_pdfpartition_via_api 没有用它来自动检测 PDF 的语言呢?
正因如此,我们不得不手动在参数 languages 中填写 PDF 的语言列表。
我是不是遗漏了什么?

z6psavjg

z6psavjg1#

+1,好问题。我也遇到了处理PDF(里面有两语言文本)的问题,它可以处理英文,但不能处理中文。

相关问题