unstructured 在ADV表单上对元素类型的错误分类

oprakyz7 于 5个月前发布在其他

关注(0)|答案(3)|浏览(75)

我正在本地使用hi_res模型，并尝试了有分块和无分块的情况。我还尝试通过API使用chipper模型，但也遇到了类似的问题。

我们在尝试在ADV宣传册上使用时遇到的主要问题 -

分类问题 - 在某些情况下，标题及其对应的文本被归类为单个标记，整个底层文本的父级指向页面的页眉。例如，以下图像是从Blackrock pdf( https://files.adviserinfo.sec.gov/IAPD/Content/Common/crd_iapd_Brochure.aspx?BRCHR_VRSN_ID=848663 )的第2页的片段中截取的。

在上面的片段文本中，Item 2. Material Changes Since the last annual update to the Form ADV Part 2A (the “Brochure”) on March 31, 2022, material changes to this Brochure include amendments to the following items:被归类为叙述性文本，这本来不应该发生。

表格提取问题 - 以下片段取自Blackrock pdf(链接在问题1中)的第24页。

我们没有收到上述表格的正确结构。

多列文档 - 我们无法获取多列PDF的正确结构。首先，识别右侧列，然后是左侧列(也是逐行)。理想情况下，整个左侧列应该一次性被识别，然后是整个右侧列。
https://files.adviserinfo.sec.gov/IAPD/Content/Common/crd_iapd_Brochure.aspx?BRCHR_VRSN_ID=821958
分块问题 - 在继续问题1的情况下，如果文本没有正确地分类为标题，那么分块也不会正常工作。
请就这些问题提供支持。

unstructured

来源：https://github.com/Unstructured-IO/unstructured/issues/2541