如何过滤rddscala中的重复项？

zpgglvta 于 2021-05-26 发布在 Spark

关注(0)|答案(0)|浏览(233)

我有一个rdd与不同的领域，即a，b，c，d。我想过滤其中一个有重复值的字段。例如

inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)]

resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)]

有没有一个函数我可以用来做这个？
像这样的

resultRDD = inputRdd.filter(x => x.a.contains("identify duplicates"))

scala rdd apache-spark Filter

来源：https://stackoverflow.com/questions/64052074/how-to-filter-duplicates-in-an-rdd-scala

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何过滤rddscala中的重复项？

暂无答案！

相关问题

热门标签

最新问答