pyspark作业的性能问题

fwzugrvs  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(229)

我使用pyspark/sparksql来执行非常简单的任务。数据大小非常小,最高为215MB。90%的数据源大小小于15 mb。我们进行过滤、处理和数据聚合,得到的数据对于90%的数据来说也不到5 mb。只有2个数据结果是120MB和260MB。主要的热点是合并(1)操作,因为我们要求只生成一个文件。我可以理解120MB和260MBgziped文件的生成和编写需要时间。但是生成和写入小于5mb的文件应该很快。当我监视作业时,我可以看到合并和保存数据文件占用了很多时间。我不明白为什么要花60-70秒来生成和写入2-3 mb的文件。
配置:我已经实现了一些性能增益与脂肪执行者的3 vcores每个执行者。我使用的是1个主3个工作集群和4个核心节点。
当做
曼尼什·佐佩

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题