热释光;博士
我的印象是,在交换阶段,我应该能够看到相同数量的任务,如中所定义的 spark.sql.shuffle.partitions
. 正如spark内部文档中提到的:“当您执行查询时,您应该会看到在webui中使用了大约200个分区。”。然而,当我使用spark3.0.0使用databricks的笔记本开始一个简单的查询时,我注意到这个值与我在sparkui上看到的不同,它似乎被除了一半。
我有一个简单的问题 %sql SELECT Country, sum(quantity) FROM online_retail group by Country
并使用databricks数据集 dbfs:/databricks-datasets/online_retail/data-001/
如果我设置 spark.sql.shuffle.partitions = 50
在查询计划中,我可以看到 Exchange hashpartitioning(Country#94, 50), true, [id=#543]
,但spark ui显示了25个任务。
请给我一些建议,谢谢你的帮助!
暂无答案!
目前还没有任何答案,快来回答吧!