spark——为什么exchange阶段的任务数和spark.sql.shuffle.partitions不一样

nkoocmlb 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(511)

热释光；博士
我的印象是，在交换阶段，我应该能够看到相同数量的任务，如中所定义的 spark.sql.shuffle.partitions . 正如spark内部文档中提到的：“当您执行查询时，您应该会看到在webui中使用了大约200个分区。”。然而，当我使用spark3.0.0使用databricks的笔记本开始一个简单的查询时，我注意到这个值与我在sparkui上看到的不同，它似乎被除了一半。
我有一个简单的问题 %sql SELECT Country, sum(quantity) FROM online_retail group by Country 并使用databricks数据集 dbfs:/databricks-datasets/online_retail/data-001/ 如果我设置 spark.sql.shuffle.partitions = 50 在查询计划中，我可以看到 Exchange hashpartitioning(Country#94, 50), true, [id=#543] ，但spark ui显示了25个任务。
请给我一些建议，谢谢你的帮助！