在jupyter笔记本的python3内核上运行pyspark程序

8yparm6h 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(505)

我曾经 pip install pyspark 安装Pypark。我没有设置任何路径等。；然而，我发现所有的东西都被下载并复制到 C:/Users/Admin/anaconda3/scripts . 我在python3内核中打开了jupyter笔记本，我试图运行systemml脚本，但它给了我一个错误。我意识到我需要在 C:/Users/Admin/anaconda3/scripts 同样，我也这么做了，脚本按预期运行。
现在，我的程序包括gridsearch，当我在我的个人笔记本电脑上运行它时，它的速度明显慢于在云数据平台上使用spark启动内核的速度（比如ibmwatstonstudio）。
所以我的问题是：
（i）如何将pyspark添加到python3内核？或者当我离开的时候它已经在后台工作了 import pyspark ?
（ii）当我使用pandas和scikit learn在同一个数据集上运行相同的代码时，性能没有太大差别。什么时候pyspark比pandas和scikit learn更受欢迎/更有益？
另一件事是，尽管pyspark似乎工作正常，而且我能够导入它的库，但当我尝试运行它时

import findspark
findspark.init()

它抛出错误（在第2行），说 list is out of range . 我在谷歌上搜索了一下，发现一条建议说我必须明确地设置 SPARK_HOME='C:/Users/Admin/anaconda3/Scripts' ; 但当我这样做时，pyspark停止工作（findspark.init（）仍然不工作）。
如果有人能解释发生了什么事，我将非常感激。谢谢您。

python apache-spark pyspark jupyter-notebook

来源：https://stackoverflow.com/questions/63852045/running-a-pyspark-program-on-python3-kernel-in-jupyter-notebook

1条答案

按热度按时间

kx5bkwkv1#

如何将pyspark添加到python3内核 pip install ，就像你说的那样
在性能上没有太大差别
你只使用一台机器，所以不会有
什么时候pyspark比pandas和scikit learn更受欢迎/更有益？
当您想要将相同的代码部署到实际的spark集群上，并且您的数据集存储在分布式存储中时
你不一定需要 findspark 如果已经设置了环境变量

赞(0）回复(0）举报 2021-05-27

我来回答

在jupyter笔记本的python3内核上运行pyspark程序

1条答案

相关问题

热门标签

最新问答