我有一个spark程序,以yarn为主,以客户机模式运行,有3个执行器
通过连接器读取elasticsearch的数据,我可以将它们加载到Dataframe中。这样的Dataframe使用 df = df.repartition(3)
三个分区。
每当我尝试做一个动作,比如 count()
或者 show()
例如,第一个阶段,从这个线程:为什么spark count操作分三个阶段执行我知道它是关于读取文件的,只有一个任务,它由一个执行者运行。
此阶段是否需要此行为?难道我不能和所有分配的执行者并行运行这个阶段吗?
1条答案
按热度按时间nhhxz33t1#
这取决于数据的复制。如果将数据复制到更多的数据节点上,则可能会有更多能够从中读取数据的执行器。