我有一个rdd与不同的领域,即a,b,c,d。我想过滤其中一个有重复值的字段。例如
inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)]
resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)]
有没有一个函数我可以用来做这个?
像这样的
resultRDD = inputRdd.filter(x => x.a.contains("identify duplicates"))
暂无答案!
目前还没有任何答案,快来回答吧!