在jupyter笔记本的python3内核上运行pyspark程序

8yparm6h  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(504)

我曾经 pip install pyspark 安装Pypark。我没有设置任何路径等。;然而,我发现所有的东西都被下载并复制到 C:/Users/Admin/anaconda3/scripts . 我在python3内核中打开了jupyter笔记本,我试图运行systemml脚本,但它给了我一个错误。我意识到我需要在 C:/Users/Admin/anaconda3/scripts 同样,我也这么做了,脚本按预期运行。
现在,我的程序包括gridsearch,当我在我的个人笔记本电脑上运行它时,它的速度明显慢于在云数据平台上使用spark启动内核的速度(比如ibmwatstonstudio)。
所以我的问题是:
(i) 如何将pyspark添加到python3内核?或者当我离开的时候它已经在后台工作了 import pyspark ?
(ii)当我使用pandas和scikit learn在同一个数据集上运行相同的代码时,性能没有太大差别。什么时候pyspark比pandas和scikit learn更受欢迎/更有益?
另一件事是,尽管pyspark似乎工作正常,而且我能够导入它的库,但当我尝试运行它时

import findspark
findspark.init()

它抛出错误(在第2行),说 list is out of range . 我在谷歌上搜索了一下,发现一条建议说我必须明确地设置 SPARK_HOME='C:/Users/Admin/anaconda3/Scripts' ; 但当我这样做时,pyspark停止工作(findspark.init()仍然不工作)。
如果有人能解释发生了什么事,我将非常感激。谢谢您。

kx5bkwkv

kx5bkwkv1#

如何将pyspark添加到python3内核 pip install ,就像你说的那样
在性能上没有太大差别
你只使用一台机器,所以不会有
什么时候pyspark比pandas和scikit learn更受欢迎/更有益?
当您想要将相同的代码部署到实际的spark集群上,并且您的数据集存储在分布式存储中时
你不一定需要 findspark 如果已经设置了环境变量

相关问题