我正在试用hadoop和spark,因为我工作的公司正准备开始开发hadoop,并希望使用spark和其他资源对我们的数据进行大量的机器学习。
大部分的责任都落在我身上,所以我正在通过自学来做准备。
我有一台机器,我把它设置成一个单节点hadoop集群。
以下是我所拥有的:
centos 7(最小服务器安装,添加xorg和openbox for gui)
python 2.7版
hadoop 2.7.2版
Spark2.0.0
我按照这些指南来设置:
http://www.tecmint.com/install-configure-apache-hadoop-centos-7/
http://davidssysadminnotes.blogspot.com/2016/01/installing-spark-centos-7.html
当我尝试运行“pyspark”时,我得到以下结果:
IPYTHON and IPYTHON_OPTS are removed in Spark 2.0+. Remove these from the environment and set PYSPARK_DRIVER_PYTHON and PYSPARK_DRIVER_PYHTON_OPTS instead.
我在vi中打开了pyspark文件并检查了它。
我看到那里发生了很多事情,但我不知道从哪里开始改正我需要做的。
我的spark安装在:
/opt/spark-latest
Pypark在 /opt/spark-latest/bin/
我的hadoop安装(虽然我不认为这是一个重要因素)是 /opt/hadoop/
.
我知道我需要在pyspark文件的某个地方做些修改,我只是不知道该放在哪里。
我做了一些谷歌搜索,找到了类似的东西,但没有任何指示步骤,以解决这个问题。
有人能帮我往正确的方向推吗?
1条答案
按热度按时间ax6ht2ek1#
如果刚刚开始了解spark在hadoop环境中的兼容性,那么目前spark 2.0还没有得到官方支持(cloudera cdh或hortonworks hdp)。我将继续假设您的公司没有在这些发行版之外支持hadoop(因为企业支持)。
也就是说,spark 1.6(和hadoop 2.6)是受支持的最新版本。原因是spark2.0有一些突破性的变化。
现在,如果使用spark 1.6,就不会出现这些错误。水蟒并不是完全必要的(Pypark和scala的外壳应该可以工作)。如果使用jupyter笔记本,您可以查找apachetoree,我在安装笔记本方面取得了很大的成功。否则,apachezeppelin可能是hadoop集群中推荐的笔记本环境。