我有一个spark作业,它读取两个头为True的csv文件(没有inferschema)。然后连接这两个文件框,执行group by,最后写入csv。
步骤:
- 读取头为True的csv文件1(无inferschema)
- 读取头为True的csv文件2(无inferschema)
- 连接file 1和file 2(不是广播)
- 执行分组依据
- 以CSV格式将分组数据写入结果
问题:创建了多少个作业和阶段? - 我的理解是3个工作将被创建-两个阅读和一个写作。
- 将创建2个阶段-一个用于加入,另一个用于分组
我的理解是否正确?
1条答案
按热度按时间wa7juj8i1#
作业的数量对应于操作的数量
阶段数与宽转换的计数一致。
在您的场景中,由于包含了广泛的转换(如group by和join操作),您将有三个作业来反映这三个操作和两个阶段