makespark集群环境

b0zn9rqh 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(272)

我做了一个spark应用程序来分析文件数据。因为输入文件的数据量可能很大，所以不足以独立运行我的应用程序。多了一台物理机器，我应该如何为它构建体系结构？
我正在考虑将mesos用于集群管理器，但在hdfs方面还没有什么进展。有没有办法不使用hdfs（用于共享文件数据）？

1条答案

Spark保持耦合群集模式。Yarn，中观和独立。您可以从独立模式开始，这意味着您在集群文件系统上工作。
如果您运行的是amazonec2，那么您可以参考下面的文章来使用自动加载spark集群的spark内置脚本。
如果在on prem环境中运行，则以独立模式运行的方法如下：
-启动独立主机

./sbin/start-master.sh

-主人会打印出一张spark://host：端口本身的url。对于集群上的每个辅助进程（计算机），请使用以下命令中的url：

./sbin/start-slave.sh <master-spark-URL>

-为了验证工作进程是否已添加到集群，您可以参考以下url：http://localhost：8080，并获取显示有关群集及其工作进程的更多信息的spark ui。
还有更多的参数可以使用。有关更多信息，请参阅本文档
希望我能帮上忙！：）