unstructured 增强:更好的元素ID

pxq42qpu  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(92)

您的功能请求是否与问题相关?请描述。

目前,element_id's仅仅是元素文本的哈希值。这并不是很好,因为id可能会在页面或文档内重复。

建议

确定性元素ID应该是(文本,页面编号,页面内的序列号)的哈希值。这样,element_id's在文档内将具有极高的唯一性。如果并行处理页面,element_id's应该保持一致,就像它们是串行处理的一样(目前是如何处理的)。
这意味着metadata_page_number_begin也必须是partition()和API的可选参数。

其他考虑因素

使用其他元数据进行哈希可能是一个潜在的选择,以尝试在文档之间保持ID的唯一性。然而,确定性是必须的。
最初,这个实现不会影响分区参数:unique_element_ids=True。

x6492ojm

x6492ojm1#

我对此也有问题,因为这个原因,父ID被错误地设置了。

相关问题