spark中的第一个操作阶段仅由一个执行者运行

goqiplq2  于 2021-05-16  发布在  Spark
关注(0)|答案(1)|浏览(289)

我有一个spark程序,以yarn为主,以客户机模式运行,有3个执行器
通过连接器读取elasticsearch的数据,我可以将它们加载到Dataframe中。这样的Dataframe使用 df = df.repartition(3) 三个分区。
每当我尝试做一个动作,比如 count() 或者 show() 例如,第一个阶段,从这个线程:为什么spark count操作分三个阶段执行我知道它是关于读取文件的,只有一个任务,它由一个执行者运行。
此阶段是否需要此行为?难道我不能和所有分配的执行者并行运行这个阶段吗?

nhhxz33t

nhhxz33t1#

这取决于数据的复制。如果将数据复制到更多的数据节点上,则可能会有更多能够从中读取数据的执行器。

相关问题