使用一个通用的表单解析器,我想获取实体并将它们附加到文档对象。(对于一个通用的表单解析器--没有称为“实体”的属性,所以需要创建一个)
虽然我使用to_json()将document对象转换为json对象,同样,是否有任何函数可以将此操作反转,例如将json对象转换为document对象。
doc_json=documentai.Document.to_json(result.document)
my_image = json.loads(doc_json)
my_dict={}
my_dict['textAnchor']=result.document.pages[0].form_fields[0].field_value.text_anchor //creating entities
my_list.append(my_dict)
my_image['entities']=my_list
toDoc=json.dumps(my_image)
获取错误“TypeError:TextAnchor类型的对象不可JSON序列化”
我尝试了以下方法
1.添加到json的结果json,但仍然没有使其序列化
1条答案
按热度按时间soat7uwm1#
是的,还有另一种方法。
documentai.Document.from_json(json_as_string)
还有documentai.Document.from_dict(document_as_dict)
。看起来问题在于如何将表单域转换为实体。您这样做有什么原因吗?
更有意义的做法可能是提取表单字段,如Handletheprocessingresponse中所示,并将它们作为FormFields保留。
注意:最新版本的表单解析器
pretrained-form-parser-v2.0-2022-11-10
支持通用实体提取,因此这可能适合您的用例。如果您在管理
Document
对象输出时遇到困难,您也可以尝试使用Document AI Toolbox SDK,它具有更简单的阅读公共字段的界面。