在pySpark中删除重复项的最佳方法

ff29svar  于 2022-09-21  发布在  Spark
关注(0)|答案(0)|浏览(84)

我正在尝试通过对几个列使用dropDuplates()来删除Spark Dataframe 中的重复项。但由于涉及到大量的洗牌和数据扭曲,JOB正在被挂起。我使用了5个内核和30 GB的内存来完成这项工作。我正在对其执行dropDuplates()的数据大约是1200万行。

考虑到数据扭曲和洗牌,请给我建议最好的方法来删除Spark中的重复项。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题