使用spark执行python脚本

cczfrluj  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(852)

我想在jupyter笔记本中通过一个python测试进入sparkcontext,并在笔记本中显示输出。为了测试,我只是执行我的jupyter笔记本,就像这样:

sparkConf = SparkConf()
sc = SparkContext(conf=sparkConf)

sc.addPyFile('test.py')

test.py看起来像

rdd = sc.parallelize(range(100000000))
print(rdd.sum())

但当我执行 sc.addPyFile 在我的笔记本中,我看不到输出。我是否将pyspark脚本错误地传递到sparkcontext中?

llew8vvj

llew8vvj1#

您使用的函数不用于触发作业,而是将python模块传递给sparkcontext,以便根据需要将其导入脚本中。
请看这里:https://spark.apache.org/docs/0.7.3/api/pyspark/pyspark.context.sparkcontext-class.html#addpyfile
要触发需要运行的作业 spark-submit test.py 在你的笔记本外面。

相关问题