python Google Cloud Vision API中的OCR功能和图像分割

chy5wohz  于 2023-06-20  发布在  Python
关注(0)|答案(1)|浏览(224)

我正在为一个涉及光学字符识别(OCR)的项目探索Google Cloud Vision API。我的项目不仅需要从图像中提取文本,还需要将这些图像分割成单个单词或字符。
我已经看过文档,但我需要澄清以下几点:

  • Google Cloud Vision API是否可以将图像分割成单个单词或字符,并返回每个片段的坐标?
  • 如果是,它是否也可以将这些片段作为单独的图像返回?
  • 如果没有,使用Google Cloud服务实现这一目标的最佳方法是什么?

如果您能提供任何指导或资源,帮助我了解Google Cloud Vision API在项目需求方面的功能,我将不胜感激。

v8wbuo2f

v8wbuo2f1#

Google Cloud Vision可以从图像中检测和提取文本。您可以使用vision API进行图像标记、人脸和地标检测、光学字符识别(OCR)以及显式内容的标记。
您可以使用云视觉高级文本识别DOCUMENT_TEXT_DETECTION功能提取单词、字符及其对应坐标。该功能针对密集的文本和文档进行了响应优化。当您发送图像时,它将识别单词、字符、片段及其坐标。有关更多信息,您可以参考这些链接link1link2

相关问题