如何过滤rddscala中的重复项?

zpgglvta  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(233)

我有一个rdd与不同的领域,即a,b,c,d。我想过滤其中一个有重复值的字段。例如

inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)]

resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)]

有没有一个函数我可以用来做这个?
像这样的

resultRDD = inputRdd.filter(x => x.a.contains("identify duplicates"))

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题