makespark集群环境

b0zn9rqh  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(271)

我做了一个spark应用程序来分析文件数据。因为输入文件的数据量可能很大,所以不足以独立运行我的应用程序。多了一台物理机器,我应该如何为它构建体系结构?
我正在考虑将mesos用于集群管理器,但在hdfs方面还没有什么进展。有没有办法不使用hdfs(用于共享文件数据)?

eqzww0vc

eqzww0vc1#

Spark保持耦合群集模式。Yarn,中观和独立。您可以从独立模式开始,这意味着您在集群文件系统上工作。
如果您运行的是amazonec2,那么您可以参考下面的文章来使用自动加载spark集群的spark内置脚本。
如果在on prem环境中运行,则以独立模式运行的方法如下:
-启动独立主机

./sbin/start-master.sh

-主人会打印出一张spark://host:端口本身的url。对于集群上的每个辅助进程(计算机),请使用以下命令中的url:

./sbin/start-slave.sh <master-spark-URL>

-为了验证工作进程是否已添加到集群,您可以参考以下url:http://localhost:8080,并获取显示有关群集及其工作进程的更多信息的spark ui。
还有更多的参数可以使用。有关更多信息,请参阅本文档
希望我能帮上忙!:)

相关问题