我曾经 pip install pyspark
安装Pypark。我没有设置任何路径等。;然而,我发现所有的东西都被下载并复制到 C:/Users/Admin/anaconda3/scripts
. 我在python3内核中打开了jupyter笔记本,我试图运行systemml脚本,但它给了我一个错误。我意识到我需要在 C:/Users/Admin/anaconda3/scripts
同样,我也这么做了,脚本按预期运行。
现在,我的程序包括gridsearch,当我在我的个人笔记本电脑上运行它时,它的速度明显慢于在云数据平台上使用spark启动内核的速度(比如ibmwatstonstudio)。
所以我的问题是:
(i) 如何将pyspark添加到python3内核?或者当我离开的时候它已经在后台工作了 import pyspark
?
(ii)当我使用pandas和scikit learn在同一个数据集上运行相同的代码时,性能没有太大差别。什么时候pyspark比pandas和scikit learn更受欢迎/更有益?
另一件事是,尽管pyspark似乎工作正常,而且我能够导入它的库,但当我尝试运行它时
import findspark
findspark.init()
它抛出错误(在第2行),说 list is out of range
. 我在谷歌上搜索了一下,发现一条建议说我必须明确地设置 SPARK_HOME='C:/Users/Admin/anaconda3/Scripts'
; 但当我这样做时,pyspark停止工作(findspark.init()仍然不工作)。
如果有人能解释发生了什么事,我将非常感激。谢谢您。
1条答案
按热度按时间kx5bkwkv1#
如何将pyspark添加到python3内核
pip install
,就像你说的那样在性能上没有太大差别
你只使用一台机器,所以不会有
什么时候pyspark比pandas和scikit learn更受欢迎/更有益?
当您想要将相同的代码部署到实际的spark集群上,并且您的数据集存储在分布式存储中时
你不一定需要
findspark
如果已经设置了环境变量