我使用Datastream将数据从PostgreSQL传输到云存储。在documentation中,写入回填和CDC之间可能存在重叠,导致重复事件。应使用事件元数据来删除重复项。在article about events中,建议使用uuid字段查找重复项。
我试图找到具有类似uuid的事件,但结果是来自回填的事件具有相同的uuid。如何找到并删除重复的事件(如果有)?
我使用Datastream将数据从PostgreSQL传输到云存储。在documentation中,写入回填和CDC之间可能存在重叠,导致重复事件。应使用事件元数据来删除重复项。在article about events中,建议使用uuid字段查找重复项。
我试图找到具有类似uuid的事件,但结果是来自回填的事件具有相同的uuid。如何找到并删除重复的事件(如果有)?
1条答案
按热度按时间5n0oy7gb1#
为了在云存储中删除回填事件和CDC事件之间的重复项,我们需要使用主键列而不是Datastream UUID。
回填事件只有
INSERT
操作。要找到重复项,我们需要按主键对所有回填和CDC事件进行分组,并在每个主键集上搜索多个INSERT操作。如果找到,并且在这些操作的时间戳之间没有DELETE操作,则这些是重复的。他们中的任何一个都可以放弃。