我最近在amazonemr上建立了一个spark集群,有1个主服务器和2个从服务器。
我能跑 pyspark
,并提交作业 spark-submit
.
但是,当我创建一个独立的作业时 job.py
,我创建了一个sparkcontext,如下所示:
sc=SparkContext("local", "App Name")
这似乎不对,但我不知道该放什么。
当我提交作业时,我确信它没有利用整个集群。
如果我想对我的整个集群运行一个作业,比如说每个从机4个进程,我必须做什么
a、 )作为参数传递给 spark-submit
b、 )作为参数传递给 SparkContext()
在脚本本身。
1条答案
按热度按时间jjjwad0x1#
您可以使用
你必须把程序提交给
spark-submit
对spark standalone cluster使用以下命令Mesos星团
Yarn簇
对于yarn master,配置将从hadoop\u conf\u dir读取。