如何在windows机器上为spark应用程序设置集群环境?

a0zr77ik  于 2021-06-26  发布在  Mesos
关注(0)|答案(1)|浏览(354)

我一直在用pyspark开发spark独立的非集群模式。这些天,我想探索更多的星火集群模式。我在互联网上搜索,发现我可能需要一个集群管理器来使用ApacheMesos或spark standalone在不同的机器上运行集群。但是,我很难找到照片的细节。
我应该如何从系统设计的Angular 进行设置,以便在多个windows机器(或多个windows vm)中运行spark集群。

xwmevbvl

xwmevbvl1#

您可能想探索(从最简单的)spark单机版,通过hadoopyarn到apachemesos或dc/os。请参见群集模式概述。
我建议首先使用spark standalone(作为提交spark应用程序的最简单选项)。spark standalone包含在任何spark安装中,可以在windows上正常工作。问题是没有脚本来启动和停止windows操作系统的独立主程序和工作程序(又称从程序)。你只需要自己“编码”它们。
使用以下命令在windows上启动独立主机:

// terminal 1
bin\spark-class org.apache.spark.deploy.master.Master

请注意,在您启动独立主机后,您将不会得到任何输入,但不要担心,请前往http://localhost:8080/查看spark独立群集的web ui。
在单独的终端中启动独立工作进程的示例。

// terminal 2
bin\spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

使用一个worker spark独立群集,您应该能够提交spark应用程序,如下所示:

spark-submit --master spark://localhost:7077 ...

阅读spark官方文档中的spark独立模式。
我刚刚发现,考虑到mesos的系统要求,它不是一个选项:
mesos在linux(64位)和mac os x(64位)上运行。
但是,您可以使用virtualbox或类似的虚拟机运行任何集群。至少dc/os有dcos vagrant,这应该使它变得相当简单:
dcos vagrant在本地机器上快速配置dc/os集群,用于开发、测试或演示。
部署dc/os vagrant涉及使用dcos vagrant box基本映像创建virtualbox vm的本地集群,然后安装dc/os。

相关问题