我正尝试从发票中提取数据,这些发票有一个可以跨越多页的表(例如,请参见图片)
对于这个任务,我使用的是微软的Form Recognizer Studio(自定义模型)3.0版我的问题出在表上。一旦我训练模型,它只识别第1页的行项目,它不考虑第1页以外的其他页的任何行项目。有什么办法吗?我错过什么了吗?谢谢
w41d8nur1#
Form Recognizer自定义尚不支持跨多页的表格。此功能即将推出,敬请关注。在此之前,您是否尝试过Form Recognizer发票服务?它应该会从两个页面中提取行项目。另一个选项是将文档拆分为页面,然后将其发送到自定义模型,看看它是否会从两个页面中提取表格。
envsm3lx2#
我的解决方案是使用Chrome开发工具来捕获每个页面上每个自动标签请求的数据,这样你就可以让系统为你完成所有标记表格数据的艰苦工作。例如
PUT
2条答案
按热度按时间w41d8nur1#
Form Recognizer自定义尚不支持跨多页的表格。此功能即将推出,敬请关注。在此之前,您是否尝试过Form Recognizer发票服务?它应该会从两个页面中提取行项目。另一个选项是将文档拆分为页面,然后将其发送到自定义模型,看看它是否会从两个页面中提取表格。
envsm3lx2#
我的解决方案是使用Chrome开发工具来捕获每个页面上每个自动标签请求的数据,这样你就可以让系统为你完成所有标记表格数据的艰苦工作。
例如
1.等等
然后,我修改了JSON,将行号更新为按顺序排列
然后将行项目数组连接在一起,并使用原始标题/auth等手动
PUT
请求。