我正在尝试通过对几个列使用dropDuplates()来删除Spark Dataframe 中的重复项。但由于涉及到大量的洗牌和数据扭曲,JOB正在被挂起。我使用了5个内核和30 GB的内存来完成这项工作。我正在对其执行dropDuplates()的数据大约是1200万行。
考虑到数据扭曲和洗牌,请给我建议最好的方法来删除Spark中的重复项。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!