调度pyspark笔记本

hec6srdp 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(489)

我有一个ipython笔记本，其中包含一些集群上的pyspark代码。目前我们正在使用oozie通过hue在hadoop上运行这些笔记本。设置感觉不太理想，我们想知道是否有一个替代品。
我们先把 .ipynb 归档到 .py 文件并将其移动到hdfs。除了这个文件，我们还创建了一个 .sh 调用python文件的文件。内容类似于：


# !/bin/sh

set -e

[ -r     /usr/local/virtualenv/pyspark/bin/activate ] &&
source /usr/local/virtualenv/pyspark/bin/activate

spark-submit --master yarn-client --<setting> <setting_val>  <filename>.py

接下来我们让oozie指向这个 .sh 文件。这个流程感觉有点麻烦，而oozie并不能让我们很好地洞察出什么地方出了问题。我们很喜欢oozie知道如何根据您的配置并行或串行地运行任务。
有没有更好、更流畅的方式来安排pyspark笔记本的日程？

hadoop oozie python pyspark jupyter-notebook

来源：https://stackoverflow.com/questions/37880908/scheduling-pyspark-notebooks

1条答案

按热度按时间

vs91vp4v1#

oozie-2482最近被添加到oozie的master中，这将使运行pyspark作业更加容易。不幸的是，它还没有发布。
如果可以将spark操作添加到工作流中，则应在标记中指定py文件。py文件和spark版本的pyspark.zip和py4j--src.zip必须添加到workflow.xml旁边的lib/文件夹中，它应该可以工作。

赞(0）回复(0）举报 2021-06-02

我来回答

调度pyspark笔记本

1条答案

相关问题

热门标签

最新问答