spark——为什么exchange阶段的任务数和spark.sql.shuffle.partitions不一样

nkoocmlb  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(511)

热释光;博士
我的印象是,在交换阶段,我应该能够看到相同数量的任务,如中所定义的 spark.sql.shuffle.partitions . 正如spark内部文档中提到的:“当您执行查询时,您应该会看到在webui中使用了大约200个分区。”。然而,当我使用spark3.0.0使用databricks的笔记本开始一个简单的查询时,我注意到这个值与我在sparkui上看到的不同,它似乎被除了一半。
我有一个简单的问题 %sql SELECT Country, sum(quantity) FROM online_retail group by Country 并使用databricks数据集 dbfs:/databricks-datasets/online_retail/data-001/ 如果我设置 spark.sql.shuffle.partitions = 50 在查询计划中,我可以看到 Exchange hashpartitioning(Country#94, 50), true, [id=#543] ,但spark ui显示了25个任务。
请给我一些建议,谢谢你的帮助!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题