在Yarn簇上安装spark

jdzmm42g  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(281)

我正在寻找一个关于如何安装现有的虚拟Yarn簇Spark指南。
我有一个由两个节点组成的Yarn簇,运行map reduce作业,效果很好。在日志中查找结果,一切正常。
现在我需要在vagrant文件中添加spark安装命令和配置文件。我找不到好的导游,有人能给我一个好的链接吗?
我用这本指南来画Yarn簇
http://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-节点安装
提前谢谢!

3okqufwl

3okqufwl1#

我不知道vagrant,但我已经在Hadoop2.6之上安装了spark(在指南中称为post-yarn),我希望这会有所帮助。
在现有hadoop上安装spark非常简单,只需在一台机器上安装即可。为此,您必须从hadoop的官方网站下载为hadoop版本预先构建的版本(我猜您可以使用 without hadoop 但您需要将它指向系统中hadoop二进制文件的方向)。然后解压:

tar -xvf spark-2.0.0-bin-hadoop2.x.tgz -C /opt

现在只需要设置一些环境变量。你的第一个 ~/.bashrc (或 ~/.zshrc )你可以设置 SPARK_HOME 并将其添加到 PATH 如果需要:

export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop-2.x
export PATH=$PATH:$SPARK_HOME/bin

为了使这些更改生效,您还可以运行:

source ~/.bashrc

其次,您需要将spark指向hadoop配置目录。为此,将这两个环境变量设置为 $SPARK_HOME/conf/spark-env.sh :

export HADOOP_CONF_DIR=[your-hadoop-conf-dir usually $HADOOP_PREFIX/etc/hadoop]
export YARN_CONF_DIR=[your-yarn-conf-dir usually the same as the last variable]

如果此文件不存在,则可以复制 $SPARK_HOME/conf/spark-env.sh.template 从那里开始。
现在要以Yarn模式启动shell,可以运行:

spark-shell --master yarn --deploy-mode client

(您不能在中运行shell cluster 部署模式)

tcbh2hod

tcbh2hod2#

-更新
我忘了提一下,您也可以用这样的配置提交集群作业(谢谢@juliancienfuegos):

spark-submit --master yarn --deploy-mode cluster project-spark.py

这样,您就看不到终端中的输出,并且一旦提交作业(未完成),命令就会退出。
你也可以使用 --deploy-mode client 如果命令被中断(例如,您按 Ctrl+C ,或会话结束)

相关问题