为什么一个普通的DataFrame.count()会导致pyspark执行两个作业?

tf7tbtn2  于 2023-03-22  发布在  Spark
关注(0)|答案(1)|浏览(83)

我试图理解Spark是如何将逻辑执行计划转换为物理执行计划的
我做两件事:
1.读取csv文件
1.在 Dataframe 上计数
因此,我期望DAG只执行两个作业
为什么这总共创造了3个就业机会?

为什么需要3个不同的阶段?

5t7ly7z5

5t7ly7z51#

我甚至从文件中删除了头文件,并强制inferSchema禁用,仍然有3个工作:

相关问题