作为一个hadoop/spark初学者,我遵循了本网站的教程,并在我的单机(centos6)上成功地部署了一个hadoop框架。现在我想在同一台机器上安装spark1.2,让它与我机器上的单节点yarn集群一起工作,这意味着对存储在我机器上hdfs上的文件执行sparksql,并将结果输出到hdfs。我没有找到一个很好的教程为这个场景在线的其余步骤要求。
到目前为止我所做的是:
(1) 从scala官方网站下载并安装了scala 2.9.3。”scala-version命令有效!
(2) 从apachespark网站下载了spark 1.2.1(为hadoop2.4或更高版本预先构建的),并且已经卸载了它。
下一步怎么办?如何更改spark目录中的哪个配置文件?有人能给一个循序渐进的教程吗?特别是如何配置spark-env.sh。越详细越好。谢谢(如果您对我如何配置hadoop和yarn有疑问,我会完全按照我之前提到的网站中列出的步骤操作)
1条答案
按热度按时间guz6ccqo1#
如果您想使用yarn,那么就必须使用maven编译spark。根据您需要的支持(hadoop版本、hive兼容性等),有各种各样的参数。以下是参数详细信息的链接:http://spark.apache.org/docs/1.2.1/building-spark.html
下面是我用来在apache hadoop 2.6.0上安装带有配置单元支持的spark的命令:
对于运行单节点集群,不需要更改spark-env.sh。只需在您的环境中设置hadoop\u conf\u dir或yarn\u conf\u dir就足够了。对于非Yarn模式,你甚至不需要它。spark-env.sh允许在一个地方设置各种环境变量,这样您就可以将hadoop配置、内存调优设置等放在一个地方。模板有很好的文档记录。
只需使用sbin目录中的脚本启动集群组件(通常start-all.sh就足够了)。还有一点-如果您希望您的sparksql使用hive metastore,那么您必须将hive-site.xml放在conf目录中,其值为
hive.metastore.uris
设置为指向元存储服务器。