我正在浏览各种文档,以了解spark作业提交与mapreduce作业提交之间的区别,是否有一个类似于hadoop权威指南中提到的mapreduce作业提交的图表?而且,spark应用程序也会像在mapreduce中一样从edge节点提交(没有严格的规则,但我猜这是遵循的实践)
ipakzgxi1#
您可以将mapreducev1作业和yarn应用程序(mapreducev2和在yarn上运行的其他应用程序)提交到同一集群。作业或应用程序可以通过以下方式提交到集群:hadoopjar命令提交mapreducev1作业或mapreducev2应用程序。jar命令提交一个应用程序。外部应用程序提交mapreduce v1作业或应用程序。生态系统组件生成并提交应用程序或mapreduce v1作业。hadoop job命令提交mapreducev1作业或mapreducev2应用程序。mapred job命令提交mapreduce v2应用程序。mapreduce提交示例:
./yarn jar $YARN_EXAMPLES/hadoop-mapreduce-examples-2.2.0.jar
捆绑用户应用程序后,可以使用bin/spark提交脚本启动它。这个脚本负责设置带有spark及其依赖项的类路径,并且可以支持spark支持的不同集群管理器和部署模式在8核上本地运行应用程序
./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master local[8] \ /path/to/examples.jar \ 100
以客户机部署模式在spark独立群集上运行
./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7077 \ --executor-memory 20G \ --total-executor-cores 100 \ /path/to/examples.jar \ 1000
在spark独立集群上以集群部署模式运行
./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7077 \ --deploy-mode cluster \ --supervise \ --executor-memory 20G \ --total-executor-cores 100 \ /path/to/examples.jar \ 1000
在一团Yarn上奔跑
export HADOOP_CONF_DIR=XXX ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ # can be client for client mode --executor-memory 20G \ --num-executors 50 \ /path/to/examples.jar \ 1000
在spark独立集群上运行python应用程序
./bin/spark-submit \ --master spark://207.184.161.138:7077 \ examples/src/main/python/pi.py \ 1000
以集群部署模式在mesos集群上运行
./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master mesos://207.184.161.138:7077 \ --deploy-mode cluster \ --supervise \ --executor-memory 20G \ --total-executor-cores 100 \ http://path/to/examples.jar \ 1000
1条答案
按热度按时间ipakzgxi1#
mapreduce提交:
您可以将mapreducev1作业和yarn应用程序(mapreducev2和在yarn上运行的其他应用程序)提交到同一集群。作业或应用程序可以通过以下方式提交到集群:
hadoopjar命令提交mapreducev1作业或mapreducev2应用程序。
jar命令提交一个应用程序。
外部应用程序提交mapreduce v1作业或应用程序。
生态系统组件生成并提交应用程序或
mapreduce v1作业。
hadoop job命令提交mapreducev1作业或mapreducev2应用程序。
mapred job命令提交mapreduce v2应用程序。
mapreduce提交示例:
提交spark应用程序
捆绑用户应用程序后,可以使用bin/spark提交脚本启动它。这个脚本负责设置带有spark及其依赖项的类路径,并且可以支持spark支持的不同集群管理器和部署模式
在8核上本地运行应用程序
以客户机部署模式在spark独立群集上运行
在spark独立集群上以集群部署模式运行
在一团Yarn上奔跑
在spark独立集群上运行python应用程序
以集群部署模式在mesos集群上运行