我已经学会了如何在多节点上设置pyspark,现在我已经创建了我的第一个pyspark代码,只需要创建一个 Dataframe 并打印其中的数据。
但是现在我想运行和执行我的pyspark代码,我把它命名为“firstcode.py“。我试着搜索,但没有得到一个线索如何做到这一点。比如如何运行它,以及我应该在哪里执行脚本来运行我的“firstcode.py”文件?
我已经学会了如何在多节点上设置pyspark,现在我已经创建了我的第一个pyspark代码,只需要创建一个 Dataframe 并打印其中的数据。
但是现在我想运行和执行我的pyspark代码,我把它命名为“firstcode.py“。我试着搜索,但没有得到一个线索如何做到这一点。比如如何运行它,以及我应该在哪里执行脚本来运行我的“firstcode.py”文件?
1条答案
按热度按时间cwtwac6a1#
你可以在集群中的任何主机上使用spark submit提交你的代码。可以配置资源使用,额外的库。主URL可以是不同的,如yarn,local,standalone,kubernetes等。你可以查看submitting application了解详细信息。
作为Yarn的主脚本示例:
独立spark的示例脚本