在linux ubuntu 18.04.5中运行我的第一个pyspark代码

ftf50wuq  于 2022-12-19  发布在  Apache
关注(0)|答案(1)|浏览(123)

我已经学会了如何在多节点上设置pyspark,现在我已经创建了我的第一个pyspark代码,只需要创建一个 Dataframe 并打印其中的数据。
但是现在我想运行和执行我的pyspark代码,我把它命名为“firstcode.py“。我试着搜索,但没有得到一个线索如何做到这一点。比如如何运行它,以及我应该在哪里执行脚本来运行我的“firstcode.py”文件?

cwtwac6a

cwtwac6a1#

你可以在集群中的任何主机上使用spark submit提交你的代码。可以配置资源使用,额外的库。主URL可以是不同的,如yarn,local,standalone,kubernetes等。你可以查看submitting application了解详细信息。
作为Yarn的主脚本示例:

spark-submit \
 --master yarn \
 --deploy-mode cluster \
 --executor-memory 1g\
 --num-executors 2\
 myCode.py

独立spark的示例脚本

spark-submit \
--master spark://host_ip:7077 \
--deploy-mode cluster \
--executor-memory 1g \
myCode.py

相关问题