如何在具有单节点(centos)Yarn集群的单机(centos)上安装spark

2ekbmq32 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(357)

作为一个hadoop/spark初学者，我遵循了本网站的教程，并在我的单机（centos6）上成功地部署了一个hadoop框架。现在我想在同一台机器上安装spark1.2，让它与我机器上的单节点yarn集群一起工作，这意味着对存储在我机器上hdfs上的文件执行sparksql，并将结果输出到hdfs。我没有找到一个很好的教程为这个场景在线的其余步骤要求。
到目前为止我所做的是：
（1）从scala官方网站下载并安装了scala 2.9.3。”scala-version命令有效！
（2）从apachespark网站下载了spark 1.2.1（为hadoop2.4或更高版本预先构建的），并且已经卸载了它。
下一步怎么办？如何更改spark目录中的哪个配置文件？有人能给一个循序渐进的教程吗？特别是如何配置spark-env.sh。越详细越好。谢谢(如果您对我如何配置hadoop和yarn有疑问，我会完全按照我之前提到的网站中列出的步骤操作）

hadoop centos apache-spark

来源：https://stackoverflow.com/questions/29135794/how-to-install-spark-on-a-single-machinecentos-which-has-single-nodecentos-y

1条答案

按热度按时间

guz6ccqo1#

如果您想使用yarn，那么就必须使用maven编译spark。根据您需要的支持（hadoop版本、hive兼容性等），有各种各样的参数。以下是参数详细信息的链接：http://spark.apache.org/docs/1.2.1/building-spark.html
下面是我用来在apache hadoop 2.6.0上安装带有配置单元支持的spark的命令：

mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4 -Phive -Phive-0.12.0 -Phive-thriftserver -DskipTests clean package

对于运行单节点集群，不需要更改spark-env.sh。只需在您的环境中设置hadoop\u conf\u dir或yarn\u conf\u dir就足够了。对于非Yarn模式，你甚至不需要它。spark-env.sh允许在一个地方设置各种环境变量，这样您就可以将hadoop配置、内存调优设置等放在一个地方。模板有很好的文档记录。
只需使用sbin目录中的脚本启动集群组件（通常start-all.sh就足够了）。还有一点-如果您希望您的sparksql使用hive metastore，那么您必须将hive-site.xml放在conf目录中，其值为 hive.metastore.uris 设置为指向元存储服务器。

赞(0）回复(0）举报 2021-05-30

我来回答

如何在具有单节点(centos)Yarn集群的单机(centos)上安装spark

1条答案

相关问题

热门标签

最新问答