对于一个泰语文档,我试图使用Google Document AI提取文本和键值对。在看到结果时,我可以看到泰语没有被保留。是否需要传递任何参数来识别泰语字符,因为我只能得到英语字符的输出。
下面的链接显示document-ai也可以支持泰语。https://cloud.google.com/document-ai/docs/languages
对于一个泰语文档,我试图使用Google Document AI提取文本和键值对。在看到结果时,我可以看到泰语没有被保留。是否需要传递任何参数来识别泰语字符,因为我只能得到英语字符的输出。
下面的链接显示document-ai也可以支持泰语。https://cloud.google.com/document-ai/docs/languages
1条答案
按热度按时间agxfikkp1#
支持的语言文档专门指光学字符识别支持的语言。
特定的处理器可能支持有限的语言。因为你说你使用的是“键-值对”,听起来你使用的是表单解析器,它在处理器页面上说它只支持拉丁脚本语言。(不包括泰语)
文档可以更清楚地说明对单个处理器的语言支持,目前正在努力解决这个问题。
更新1:Supported Languages Documentation已更新,使其更加明确。
Processor List页面还显示了对每种处理器类型的语言支持。
**更新2:**最新版本的表单解析器处理器
pretrained-form-parser-v2.0-2022-11-10
增加了对文档OCR处理器支持的所有200多种语言的支持,其中应包括泰语。请参阅Managing processor versions以了解如何使用它。