重复数据消除delta lake表

yk9xbfzb  于 2021-05-22  发布在  Spark
关注(0)|答案(1)|浏览(442)

我在蔚蓝有一张三角洲湖的table。我用的是数据卡。当我们添加新条目时,我们使用merge-into来防止重复项进入表中。然而,复制品确实进入了表格。我不知道是怎么发生的。可能合并到条件设置不正确。
不管怎样,复制品都在那里。有没有办法从表中检测并删除重复项?我找到的所有文档都显示了如何在合并之前消除数据集的重复数据。一次也没有,复制品已经存在了。如何删除重复项?
谢谢

rbpvctlc

rbpvctlc1#

如果目标表中存在重复项,则只能选择:
使用SQLDELETE语句从目标表中手动删除重复的行
创建目标表的已消除重复的复制副本,并重命名这两个表(已消除重复的复制副本和原始目标),以确保使已消除重复的复制副本成为主表。

相关问题