在linux上正确配置pyspark和anaconda3

ru9i0ody  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(664)

以下是我迄今为止采取的步骤:
我安装了anaconda3和目录里的所有东西 $HOME/anaconda3/bin .
我进入了 $HOME/anaconda3/bin 执行命令 ./conda install -c conda-forge pyspark . 它是成功的。
我什么也没做。更具体地说,在我的 .bashrc 以下是一些重要的细节:
我在一个运行hadoop的分布式集群上,所以在我的主文件夹之外可能还有其他目录我还没有发现,但我可能需要。我也没有管理员权限。
jupyter笔记本运行正常。
我的目标是:
目标。添加变量或者配置一些文件,这样我就可以在jupyter笔记本上运行pyspark了。
为了达到这个目标,在第三步之后我还需要做些什么?

06odsfpq

06odsfpq1#

既然你已经安装了pyspark conda ,正如你所说的jupyter笔记本运行良好(大概是相同的Python分布),没有进一步的步骤需要-你应该能够打开一个新的笔记本和 import pyspark .
但请注意,这样安装pyspark(即 pip 或者 conda )只提供有限的功能;从文件包中:
spark的python打包并不打算取代所有其他用例。spark的这个python打包版本适合与现有集群(spark standalone、yarn或mesos)交互,但不包含设置您自己的独立spark集群所需的工具。您可以从apachespark下载页面下载完整版本的spark。
使用安装Pypark pip 或者 conda 是一个相对较新的附加组件,针对上述文档中描述的情况。我不知道你可能会面临什么限制(从未尝试过),但如果你需要完整的功能,你应该下载完整的spark发行版(其中pyspark是不可分割的一部分)。

相关问题