unstructured (PDF) 如何让 partition_pdf 和 partition_via_api 自动检测 PDF 的语言？

xe55xuns 于 5个月前发布在其他

关注(0)|答案(1)|浏览(84)

在文件 lang.py 中，我看到了库 langdetect 的使用。
在同一文件中，有一个名为 detect_languages() 的函数，但看起来 partition_pdf 和 partition_via_api 在处理 PDF 时并未使用它。
如果这是真的，那么为什么 partition_pdf 和 partition_via_api 没有用它来自动检测 PDF 的语言呢？
正因如此，我们不得不手动在参数 languages 中填写 PDF 的语言列表。
我是不是遗漏了什么？

unstructured

来源：https://github.com/Unstructured-IO/unstructured/issues/2288