使用0.11.8版本
>> part = partition(url=source, unique_element_ids=True)
>> part[5].id
'80aeff2c-f406-470e-b82e-512723f1bdd3'
>>> part[5].metadata.to_dict()['parent_id']
'11364a4c8f174651156e7203a53f4c1a'
这使得整个parent_id无法使用。
使用0.11.8版本
>> part = partition(url=source, unique_element_ids=True)
>> part[5].id
'80aeff2c-f406-470e-b82e-512723f1bdd3'
>>> part[5].metadata.to_dict()['parent_id']
'11364a4c8f174651156e7203a53f4c1a'
这使得整个parent_id无法使用。
2条答案
按热度按时间js81xvg61#
我快速查看了一下代码,我认为最简单的修复方法是在元数据类中添加一个
_parent
,并创建一个parent_id
属性来返回_parent.id
。然后在
unstructured/partition/common
中将_parent
设置为topelement
cgyqldqp2#
目前,我刚刚将https://github.com/Unstructured-IO/unstructured/blob/main/unstructured/documents/elements.py#L755处的has代码替换为下一个elif块的uuid代码,当然也禁用了
unique_element_ids=True
(因为这会重新生成id)。能够切换这种行为当然是个快速的技巧。