您的功能请求是否与问题相关?请描述。
目前,element_id's仅仅是元素文本的哈希值。这并不是很好,因为id可能会在页面或文档内重复。
建议
确定性元素ID应该是(文本,页面编号,页面内的序列号)的哈希值。这样,element_id's在文档内将具有极高的唯一性。如果并行处理页面,element_id's应该保持一致,就像它们是串行处理的一样(目前是如何处理的)。
这意味着metadata_page_number_begin
也必须是partition()
和API的可选参数。
其他考虑因素
使用其他元数据进行哈希可能是一个潜在的选择,以尝试在文档之间保持ID的唯一性。然而,确定性是必须的。
最初,这个实现不会影响分区参数:unique_element_ids=True。
1条答案
按热度按时间x6492ojm1#
我对此也有问题,因为这个原因,父ID被错误地设置了。