如何使用yarn在cloudera上添加spark worker节点

s4n0splo 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(820)

我们有cloudera 5.2，用户希望开始充分利用spark的潜力（在分布式模式下，它可以利用hdfs获得数据局部性的优势），该服务已经安装并且在cloudera manager状态下可用（在主页中），但是当单击该服务然后单击“示例”时，它只显示历史服务器角色，在其他节点中显示网关服务器角色。根据我对spark架构的理解，您有一个主节点和工作节点（与hdfs datanodes住在一起），因此在cloudera manager中，我尝试了“添加角色示例”，但只有“网关”角色可用。如何将sparks worker node（或executor）角色添加到拥有hdfs数据节点的主机？或者它是没有必要的（我认为由于yarn的原因，yarn负责创建执行器和应用程序主控器）？主节点是什么情况？我是否需要配置任何东西，以便用户可以在其完全分布式模式下使用spark？

hadoop apache-spark cloudera-cdh cloudera-manager

来源：https://stackoverflow.com/questions/42660301/how-to-add-spark-worker-nodes-on-cloudera-with-yarn

1条答案

按热度按时间

klsxnrf11#

主角色和工作角色是spark独立服务的一部分。您可以选择spark与yarn一起运行（其中主节点和辅助节点不相关）或spark（独立）。
由于您已经在cloudera manager中启动了spark服务而不是spark（独立），spark已经在使用yarn了。在cloudera manager 5.2及更高版本中，有两个独立的spark服务（spark和spark（独立））。spark服务将spark作为一个yarn应用程序运行，除了spark历史服务器角色之外，还只具有网关角色。
如何将sparks worker node（或executor）角色添加到拥有hdfs数据节点的主机？
不需要。这些主机上只需要网关角色。
引用构型管理文件：
在cloudera manager中，网关角色负责将客户端配置传播到集群中的其他主机。因此，请确保将网关角色分配给集群中的主机。如果没有网关角色，则不会部署客户端配置。

赞(0）回复(0）举报 2021-06-02

我来回答

如何使用yarn在cloudera上添加spark worker节点

1条答案

相关问题

热门标签

最新问答