抱歉,如果这看起来像一个简单的问题,但我无法从一些研究的意义。
我有一个bash脚本,里面有很多Spark。作业的大小各不相同,从ui来看,最大的作业使用以下内容:
输入:11.8 gb随机写入:77.0 gb
当我在集群模式下运行脚本时,它似乎可以工作( spark2-submit --master yarn --deploy-mode cluster mypyfile.py arg1,arg2,arg3 arg4
),但我想定义必要的(最大)资源,例如 driver-memory
, executor-memory
, executor-cores
. 据我所知,我不应该 num-executors
是否启用动态分配?谢谢你的帮助。
暂无答案!
目前还没有任何答案,快来回答吧!