spark中同一工作/阶段中的任务之间存在较大差距

lmvvr0a8  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(321)

我有一份不到一秒钟的工作。在这种情况下,大约需要10-12秒。深入到一个阶段,显示任务运行良好,您可以看到最大的、长时间运行的任务花费了0.4秒:

但是,在查看时间线时,您可以看到,在同一阶段的某些任务之间有很大的间隔(约10秒):

我有什么遗漏吗?我应该配置什么来避免长时间的间隔?
编辑:
这是时间表中的全部任务列表,看起来相当平衡

goucqfw6

goucqfw61#

尝试重新划分RDD,以便每个分区包含相同的数据量。当分区包含大量不平衡的数据量时,这种问题经常发生。查看本文,它可能有助于理解分区方面及其对性能的影响:https://dzone.com/articles/apache-spark-performance-tuning-degree-of-parallel

相关问题