我有一份不到一秒钟的工作。在这种情况下,大约需要10-12秒。深入到一个阶段,显示任务运行良好,您可以看到最大的、长时间运行的任务花费了0.4秒:但是,在查看时间线时,您可以看到,在同一阶段的某些任务之间有很大的间隔(约10秒):我有什么遗漏吗?我应该配置什么来避免长时间的间隔?编辑:这是时间表中的全部任务列表,看起来相当平衡
goucqfw61#
尝试重新划分RDD,以便每个分区包含相同的数据量。当分区包含大量不平衡的数据量时,这种问题经常发生。查看本文,它可能有助于理解分区方面及其对性能的影响:https://dzone.com/articles/apache-spark-performance-tuning-degree-of-parallel
1条答案
按热度按时间goucqfw61#
尝试重新划分RDD,以便每个分区包含相同的数据量。当分区包含大量不平衡的数据量时,这种问题经常发生。查看本文,它可能有助于理解分区方面及其对性能的影响:https://dzone.com/articles/apache-spark-performance-tuning-degree-of-parallel