我想在jupyter笔记本中通过一个python测试进入sparkcontext,并在笔记本中显示输出。为了测试,我只是执行我的jupyter笔记本,就像这样:
sparkConf = SparkConf()
sc = SparkContext(conf=sparkConf)
sc.addPyFile('test.py')
test.py看起来像
rdd = sc.parallelize(range(100000000))
print(rdd.sum())
但当我执行 sc.addPyFile
在我的笔记本中,我看不到输出。我是否将pyspark脚本错误地传递到sparkcontext中?
1条答案
按热度按时间llew8vvj1#
您使用的函数不用于触发作业,而是将python模块传递给sparkcontext,以便根据需要将其导入脚本中。
请看这里:https://spark.apache.org/docs/0.7.3/api/pyspark/pyspark.context.sparkcontext-class.html#addpyfile
要触发需要运行的作业
spark-submit test.py
在你的笔记本外面。