我有一个ipython笔记本,其中包含一些集群上的pyspark代码。目前我们正在使用oozie通过hue在hadoop上运行这些笔记本。设置感觉不太理想,我们想知道是否有一个替代品。
我们先把 .ipynb
归档到 .py
文件并将其移动到hdfs。除了这个文件,我们还创建了一个 .sh
调用python文件的文件。内容类似于:
# !/bin/sh
set -e
[ -r /usr/local/virtualenv/pyspark/bin/activate ] &&
source /usr/local/virtualenv/pyspark/bin/activate
spark-submit --master yarn-client --<setting> <setting_val> <filename>.py
接下来我们让oozie指向这个 .sh
文件。这个流程感觉有点麻烦,而oozie并不能让我们很好地洞察出什么地方出了问题。我们很喜欢oozie知道如何根据您的配置并行或串行地运行任务。
有没有更好、更流畅的方式来安排pyspark笔记本的日程?
1条答案
按热度按时间vs91vp4v1#
oozie-2482最近被添加到oozie的master中,这将使运行pyspark作业更加容易。不幸的是,它还没有发布。
如果可以将spark操作添加到工作流中,则应在标记中指定py文件。py文件和spark版本的pyspark.zip和py4j--src.zip必须添加到workflow.xml旁边的lib/文件夹中,它应该可以工作。