使用spark-ec2更改hadoop版本

2w2cym1i  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(348)

我想知道,当spark-ec2创建集群时,是否可以更改hadoop版本?
我试过了

spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 launch my-spark-cluster

然后我用登录

spark-ec2 -k spark -i ~/.ssh/spark.pem login my-spark-cluster

发现hadoop的版本是1.0.4。
我想使用2.x版本的hadoop,最好的方法是什么?

r8xiu3jd

r8xiu3jd1#

hadoop 2.0版 spark-ec2 脚本不支持修改现有集群,但可以使用hadoop2创建一个新的spark集群。

请看这个节选自脚本的 --help :

--hadoop-major-version=HADOOP_MAJOR_VERSION
                    Major version of Hadoop (default: 1)

例如:

spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 --hadoop-major-version=2 launch my-spark-cluster

…将使用当前版本的spark和hadoop 2创建一个集群。
如果你用spark v。1.3.1或spark v。将创建一个独立的集群,然后您将获得hadoopv。2.0.0 mr1(来自cloudera hadoop平台4.2.0发行版)。
注意事项如下:
有些特性由于bug还不支持hadoop版本-例如使用tachyon时出现问题,
虽然理论上在spark 1.4.0中,您可以使用spark-ec2创建一个Yarn簇,但截至2015年6月,它的[尚未记录]以及我们尝试使用它的尝试都失败了,
..但是我已经成功地使用了一些用hadoop2.0.0创建的spark 1.2.0和1.3.1集群,使用了一些hadoop2特有的特性(对于spark 1.2.0,我做了一些调整,将spark和spark-ec2结合起来,但这是另一个故事。)

hadoop 2.4、2.6版

如果您需要Hadoop2.4或Hadoop2.6,那么我目前(截至2015年6月)建议您手动创建一个独立集群——这比您可能认为的要简单。

相关问题