python-3.x 如何将json转换为DocumentAI的文档对象

eeq64g8w  于 2023-04-13  发布在  Python
关注(0)|答案(1)|浏览(166)

使用一个通用的表单解析器,我想获取实体并将它们附加到文档对象。(对于一个通用的表单解析器--没有称为“实体”的属性,所以需要创建一个)
虽然我使用to_json()将document对象转换为json对象,同样,是否有任何函数可以将此操作反转,例如将json对象转换为document对象。

doc_json=documentai.Document.to_json(result.document)
   
my_image = json.loads(doc_json)

my_dict={}
my_dict['textAnchor']=result.document.pages[0].form_fields[0].field_value.text_anchor  //creating entities

my_list.append(my_dict)

my_image['entities']=my_list

toDoc=json.dumps(my_image)

获取错误“TypeError:TextAnchor类型的对象不可JSON序列化”
我尝试了以下方法
1.添加到json的结果json,但仍然没有使其序列化

soat7uwm

soat7uwm1#

是的,还有另一种方法。documentai.Document.from_json(json_as_string)还有documentai.Document.from_dict(document_as_dict)
看起来问题在于如何将表单域转换为实体。您这样做有什么原因吗?
更有意义的做法可能是提取表单字段,如Handletheprocessingresponse中所示,并将它们作为FormFields保留。
注意:最新版本的表单解析器pretrained-form-parser-v2.0-2022-11-10支持通用实体提取,因此这可能适合您的用例。
如果您在管理Document对象输出时遇到困难,您也可以尝试使用Document AI Toolbox SDK,它具有更简单的阅读公共字段的界面。

相关问题