将spark配置为在windows7中本地运行

bxfogqkk 于 2021-06-03 发布在 Hadoop

关注(0)|答案(0)|浏览(240)

我试着在我的桌面电脑上使用spark，它运行windows7（在本地，不是从集群或任何东西，为了得到一些实践），通过ipython笔记本中的pyspark，找到了一个名为“findspark”（在pip上可用）的包，可以用来避免必须通过spark的设置。
基本上，我只是从官方下载了一个为hadoop预构建的spark版本，解压缩文件，然后在python中运行类似的程序：

import findspark
findspark.init(‘spark_directory’)
import pyspark
sc = pyspark.SparkContext()

我得到了一个完全可以正常工作的spark上下文，没有设置任何东西。但是，它运行得非常慢，以至于如果我运行类似于：

print(sc.parallelize([1]).collect())

产生结果需要一秒钟，如果我尝试更昂贵的计算，它也相当慢，ram内存使用有限（即，即使计算需要，也不会超过某个点）–出于比较目的，我还从一个已经安装好的linux虚拟机上运行了它，我在mooc中下载了这个虚拟机，所有的操作都运行得更快。
我想知道我能做些什么或者我能配置什么来加速它。我的目标是在本地机器上有一个spark的函数示例，在ipython笔记本上使用pyspark进行练习。

hadoop apache-spark ipython

来源：https://stackoverflow.com/questions/33604047/configuring-spark-to-run-locally-in-windows-7

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

将spark配置为在windows7中本地运行

暂无答案！

相关问题

热门标签

最新问答