我想知道,当spark-ec2创建集群时,是否可以更改hadoop版本?
我试过了
spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 launch my-spark-cluster
然后我用登录
spark-ec2 -k spark -i ~/.ssh/spark.pem login my-spark-cluster
发现hadoop的版本是1.0.4。
我想使用2.x版本的hadoop,最好的方法是什么?
我想知道,当spark-ec2创建集群时,是否可以更改hadoop版本?
我试过了
spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 launch my-spark-cluster
然后我用登录
spark-ec2 -k spark -i ~/.ssh/spark.pem login my-spark-cluster
发现hadoop的版本是1.0.4。
我想使用2.x版本的hadoop,最好的方法是什么?
1条答案
按热度按时间r8xiu3jd1#
hadoop 2.0版
spark-ec2
脚本不支持修改现有集群,但可以使用hadoop2创建一个新的spark集群。请看这个节选自脚本的
--help
:例如:
…将使用当前版本的spark和hadoop 2创建一个集群。
如果你用spark v。1.3.1或spark v。将创建一个独立的集群,然后您将获得hadoopv。2.0.0 mr1(来自cloudera hadoop平台4.2.0发行版)。
注意事项如下:
有些特性由于bug还不支持hadoop版本-例如使用tachyon时出现问题,
虽然理论上在spark 1.4.0中,您可以使用spark-ec2创建一个Yarn簇,但截至2015年6月,它的[尚未记录]以及我们尝试使用它的尝试都失败了,
..但是我已经成功地使用了一些用hadoop2.0.0创建的spark 1.2.0和1.3.1集群,使用了一些hadoop2特有的特性(对于spark 1.2.0,我做了一些调整,将spark和spark-ec2结合起来,但这是另一个故事。)
hadoop 2.4、2.6版
如果您需要Hadoop2.4或Hadoop2.6,那么我目前(截至2015年6月)建议您手动创建一个独立集群——这比您可能认为的要简单。