centos 7上的spark和ipython

zengzsys 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(384)

我正在试用hadoop和spark，因为我工作的公司正准备开始开发hadoop，并希望使用spark和其他资源对我们的数据进行大量的机器学习。
大部分的责任都落在我身上，所以我正在通过自学来做准备。
我有一台机器，我把它设置成一个单节点hadoop集群。
以下是我所拥有的：
centos 7（最小服务器安装，添加xorg和openbox for gui）
python 2.7版
hadoop 2.7.2版
Spark2.0.0
我按照这些指南来设置：
http://www.tecmint.com/install-configure-apache-hadoop-centos-7/
http://davidssysadminnotes.blogspot.com/2016/01/installing-spark-centos-7.html
当我尝试运行“pyspark”时，我得到以下结果：

IPYTHON and IPYTHON_OPTS are removed in Spark 2.0+. Remove these from the environment and set PYSPARK_DRIVER_PYTHON and PYSPARK_DRIVER_PYHTON_OPTS instead.

我在vi中打开了pyspark文件并检查了它。
我看到那里发生了很多事情，但我不知道从哪里开始改正我需要做的。
我的spark安装在：

/opt/spark-latest

Pypark在 /opt/spark-latest/bin/ 我的hadoop安装（虽然我不认为这是一个重要因素）是 /opt/hadoop/ .
我知道我需要在pyspark文件的某个地方做些修改，我只是不知道该放在哪里。
我做了一些谷歌搜索，找到了类似的东西，但没有任何指示步骤，以解决这个问题。
有人能帮我往正确的方向推吗？

hadoop apache-spark pyspark ipython

来源：https://stackoverflow.com/questions/39259741/spark-and-ipython-on-centos-7

1条答案

按热度按时间

ax6ht2ek1#

如果刚刚开始了解spark在hadoop环境中的兼容性，那么目前spark 2.0还没有得到官方支持（cloudera cdh或hortonworks hdp）。我将继续假设您的公司没有在这些发行版之外支持hadoop（因为企业支持）。
也就是说，spark 1.6（和hadoop 2.6）是受支持的最新版本。原因是spark2.0有一些突破性的变化。
现在，如果使用spark 1.6，就不会出现这些错误。水蟒并不是完全必要的（Pypark和scala的外壳应该可以工作）。如果使用jupyter笔记本，您可以查找apachetoree，我在安装笔记本方面取得了很大的成功。否则，apachezeppelin可能是hadoop集群中推荐的笔记本环境。

赞(0）回复(0）举报 2021-05-30

我来回答

centos 7上的spark和ipython

1条答案

相关问题

热门标签

最新问答