调度pyspark笔记本

hec6srdp  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(489)

我有一个ipython笔记本,其中包含一些集群上的pyspark代码。目前我们正在使用oozie通过hue在hadoop上运行这些笔记本。设置感觉不太理想,我们想知道是否有一个替代品。
我们先把 .ipynb 归档到 .py 文件并将其移动到hdfs。除了这个文件,我们还创建了一个 .sh 调用python文件的文件。内容类似于:


# !/bin/sh

set -e

[ -r     /usr/local/virtualenv/pyspark/bin/activate ] &&
source /usr/local/virtualenv/pyspark/bin/activate

spark-submit --master yarn-client --<setting> <setting_val>  <filename>.py

接下来我们让oozie指向这个 .sh 文件。这个流程感觉有点麻烦,而oozie并不能让我们很好地洞察出什么地方出了问题。我们很喜欢oozie知道如何根据您的配置并行或串行地运行任务。
有没有更好、更流畅的方式来安排pyspark笔记本的日程?

vs91vp4v

vs91vp4v1#

oozie-2482最近被添加到oozie的master中,这将使运行pyspark作业更加容易。不幸的是,它还没有发布。
如果可以将spark操作添加到工作流中,则应在标记中指定py文件。py文件和spark版本的pyspark.zip和py4j--src.zip必须添加到workflow.xml旁边的lib/文件夹中,它应该可以工作。

相关问题