我们有cloudera 5.2,用户希望开始充分利用spark的潜力(在分布式模式下,它可以利用hdfs获得数据局部性的优势),该服务已经安装并且在cloudera manager状态下可用(在主页中),但是当单击该服务然后单击“示例”时,它只显示历史服务器角色,在其他节点中显示网关服务器角色。根据我对spark架构的理解,您有一个主节点和工作节点(与hdfs datanodes住在一起),因此在cloudera manager中,我尝试了“添加角色示例”,但只有“网关”角色可用。如何将sparks worker node(或executor)角色添加到拥有hdfs数据节点的主机?或者它是没有必要的(我认为由于yarn的原因,yarn负责创建执行器和应用程序主控器)?主节点是什么情况?我是否需要配置任何东西,以便用户可以在其完全分布式模式下使用spark?
1条答案
按热度按时间klsxnrf11#
主角色和工作角色是spark独立服务的一部分。您可以选择spark与yarn一起运行(其中主节点和辅助节点不相关)或spark(独立)。
由于您已经在cloudera manager中启动了spark服务而不是spark(独立),spark已经在使用yarn了。在cloudera manager 5.2及更高版本中,有两个独立的spark服务(spark和spark(独立))。spark服务将spark作为一个yarn应用程序运行,除了spark历史服务器角色之外,还只具有网关角色。
如何将sparks worker node(或executor)角色添加到拥有hdfs数据节点的主机?
不需要。这些主机上只需要网关角色。
引用构型管理文件:
在cloudera manager中,网关角色负责将客户端配置传播到集群中的其他主机。因此,请确保将网关角色分配给集群中的主机。如果没有网关角色,则不会部署客户端配置。