有一个从增量表中删除数据的函数:
deltaTable = DeltaTable.forPath(spark, "/data/events/")
deltaTable.delete(col("date") < "2017-01-01")
但是,是否也有一种方法,以某种方式删除重复?比如deltatable.dropduplicates()。。。
我不想将整个表作为一个Dataframe读取,删除重复项,然后再次将其重写到存储中
有一个从增量表中删除数据的函数:
deltaTable = DeltaTable.forPath(spark, "/data/events/")
deltaTable.delete(col("date") < "2017-01-01")
但是,是否也有一种方法,以某种方式删除重复?比如deltatable.dropduplicates()。。。
我不想将整个表作为一个Dataframe读取,删除重复项,然后再次将其重写到存储中
暂无答案!
目前还没有任何答案,快来回答吧!