目前我们的项目是关于mr的,我们使用oozie来协调mr工作。现在我们开始讨论spark,并想知道在cdh集群上调度/触发spark作业的推荐方法。请注意,cdh oozie不支持spark2作业。所以请给出一个替代方案。
n7taea2i1#
一旦你从shell提交spark作业,比如: spark-submit <script_path> <arguments_list> 它被提交到cdh集群。你马上就能看到Spark作业及其色调的进展。这就是我们触发Spark作业的方式。此外,要编排一系列作业,可以在其周围使用shell脚本 Package 器。或者,您可以使用cron作业来定时触发。
spark-submit <script_path> <arguments_list>
mzmfm0qo2#
上次我查看时,hue在worlflow编辑器中有一个spark选项。如果cloudera不支持的话,我不知道为什么它会出现在那里。。。不过,cdh-oozie确实支持纯shell脚本,但您需要确保所有nodemanager都有 spark-submit 命令在本地服务器上可用。如果这不起作用,它还支持运行jar的java操作,因此您可以编写spark脚本,所有这些脚本都从一个main方法开始,从那里加载任何配置
spark-submit
2条答案
按热度按时间n7taea2i1#
一旦你从shell提交spark作业,比如:
spark-submit <script_path> <arguments_list>
它被提交到cdh集群。你马上就能看到Spark作业及其色调的进展。这就是我们触发Spark作业的方式。此外,要编排一系列作业,可以在其周围使用shell脚本 Package 器。或者,您可以使用cron作业来定时触发。
mzmfm0qo2#
上次我查看时,hue在worlflow编辑器中有一个spark选项。如果cloudera不支持的话,我不知道为什么它会出现在那里。。。
不过,cdh-oozie确实支持纯shell脚本,但您需要确保所有nodemanager都有
spark-submit
命令在本地服务器上可用。如果这不起作用,它还支持运行jar的java操作,因此您可以编写spark脚本,所有这些脚本都从一个main方法开始,从那里加载任何配置