如何在cloudera中安排/触发spark作业?

icnyk63a  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(335)

目前我们的项目是关于mr的,我们使用oozie来协调mr工作。现在我们开始讨论spark,并想知道在cdh集群上调度/触发spark作业的推荐方法。请注意,cdh oozie不支持spark2作业。所以请给出一个替代方案。

n7taea2i

n7taea2i1#

一旦你从shell提交spark作业,比如: spark-submit <script_path> <arguments_list> 它被提交到cdh集群。你马上就能看到Spark作业及其色调的进展。这就是我们触发Spark作业的方式。
此外,要编排一系列作业,可以在其周围使用shell脚本 Package 器。或者,您可以使用cron作业来定时触发。

mzmfm0qo

mzmfm0qo2#

上次我查看时,hue在worlflow编辑器中有一个spark选项。如果cloudera不支持的话,我不知道为什么它会出现在那里。。。
不过,cdh-oozie确实支持纯shell脚本,但您需要确保所有nodemanager都有 spark-submit 命令在本地服务器上可用。
如果这不起作用,它还支持运行jar的java操作,因此您可以编写spark脚本,所有这些脚本都从一个main方法开始,从那里加载任何配置

相关问题