在linux ubuntu 18.04.5中运行我的第一个pyspark代码

ftf50wuq 于 2022-12-19 发布在 Apache

关注(0)|答案(1)|浏览(123)

我已经学会了如何在多节点上设置pyspark，现在我已经创建了我的第一个pyspark代码，只需要创建一个 Dataframe 并打印其中的数据。
但是现在我想运行和执行我的pyspark代码，我把它命名为“firstcode.py“。我试着搜索，但没有得到一个线索如何做到这一点。比如如何运行它，以及我应该在哪里执行脚本来运行我的“firstcode.py”文件？

apache-spark

来源：https://stackoverflow.com/questions/74815756/run-my-first-code-of-pyspark-in-linux-ubuntu-18-04-5

1条答案

按热度按时间

cwtwac6a1#

你可以在集群中的任何主机上使用spark submit提交你的代码。可以配置资源使用，额外的库。主URL可以是不同的，如yarn，local，standalone，kubernetes等。你可以查看submitting application了解详细信息。
作为Yarn的主脚本示例：

spark-submit \
 --master yarn \
 --deploy-mode cluster \
 --executor-memory 1g\
 --num-executors 2\
 myCode.py

独立spark的示例脚本

spark-submit \
--master spark://host_ip:7077 \
--deploy-mode cluster \
--executor-memory 1g \
myCode.py

赞(0）回复(0）举报 2022-12-19

我来回答

在linux ubuntu 18.04.5中运行我的第一个pyspark代码

1条答案

相关问题

热门标签

最新问答