我试着在我的桌面电脑上使用spark,它运行windows7(在本地,不是从集群或任何东西,为了得到一些实践),通过ipython笔记本中的pyspark,找到了一个名为“findspark”(在pip上可用)的包,可以用来避免必须通过spark的设置。
基本上,我只是从官方下载了一个为hadoop预构建的spark版本,解压缩文件,然后在python中运行类似的程序:
import findspark
findspark.init(‘spark_directory’)
import pyspark
sc = pyspark.SparkContext()
我得到了一个完全可以正常工作的spark上下文,没有设置任何东西。但是,它运行得非常慢,以至于如果我运行类似于:
print(sc.parallelize([1]).collect())
产生结果需要一秒钟,如果我尝试更昂贵的计算,它也相当慢,ram内存使用有限(即,即使计算需要,也不会超过某个点)–出于比较目的,我还从一个已经安装好的linux虚拟机上运行了它,我在mooc中下载了这个虚拟机,所有的操作都运行得更快。
我想知道我能做些什么或者我能配置什么来加速它。我的目标是在本地机器上有一个spark的函数示例,在ipython笔记本上使用pyspark进行练习。
暂无答案!
目前还没有任何答案,快来回答吧!