我安装了以下spark基准测试:https://github.com/bbva/spark-benchmarks 我在8个workers上运行spark-on-top-of-yarn,但在工作期间我只得到2个运行的执行器(testdfsio)。我还设置了 executor-cores
但只有两个人在跑步。为什么会这样?
我认为这个问题来自于yarn,因为我在hadoop上遇到了类似的(几乎)testdfsio问题。实际上,在作业开始时,只有两个节点运行,但随后所有节点都并行执行应用程序!
请注意,我没有使用hdfs存储!
1条答案
按热度按时间uxhixvfz1#
我解决了这个问题。我所做的是将每个执行器的核心数设置为5(
--executor-cores
)遗嘱执行人总数达到23人(--num-executors
)默认情况下,最初是2。