hadoop cluster+任何禁止spark应用程序在特定数据节点上运行的方法

83qze16e 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(494)

我们有hadoop集群（ HDP 2.6.5 带有ambari的群集，具有25个数据节点（机器）
我们正在使用spark流应用程序( spark 2.1 浏览 Hortonworks 2.6.x )
目前的情况是spark流应用程序在所有datanodes机器上运行
但是现在我们希望spark流应用程序只在第一个服务器上运行 10 datanodes 机器
所以其他人最后 15 datanodes 机器将受到限制，spark应用程序将只在第一个服务器上运行 10 datanodes 机器
这个场景可以通过ambary特性或其他方法来实现吗？
例如我们发现-https://docs.cloudera.com/hdpdocuments/hdp2/hdp-2.3.2/bk_yarn_resource_mgt/content/configuring_node_labels.html ,
和
http://crazyadmins.com/configure-node-labels-on-yarn/
但不确定节点标签是否能帮助我们

apache-spark spark-streaming ambari hdp DataNode

来源：https://stackoverflow.com/questions/62672351/hadoop-cluster-any-way-to-disable-spark-application-to-run-on-specific-data-no

1条答案

按热度按时间

wztqucjr1#

@杰西卡是的，你走上了正确的道路。yarn节点标签和yarn队列是ambari管理员控制团队级访问整个yarn集群部分的方式。您可以从一个非默认队列开始，或者深入了解许多不同团队的许多队列。节点标签将其带到另一个级别，允许您将队列和团队Map到特定的节点。
下面是一篇文章，其中包含spark使用Yarn队列的语法：
如何使用spark submit选择spark作业的队列？
我试图找到这些文档的2.6版本，但未能。。。。自从合并后他们把文件搞混了。。。
https://docs.cloudera.com/hdpdocuments/hdp2/hdp-2.3.2/bk_yarn_resource_mgt/content/ch_node_labels.html
https://docs.cloudera.com/hdpdocuments/hdp3/hdp-3.1.0/data-operating-system/content/configuring_node_labels.html
您可能需要采取的实际步骤可能是这两个步骤的组合。在ambari hdp/hdf工作的典型经验。

赞(0）回复(0）举报 2021-05-27

我来回答

hadoop cluster+任何禁止spark应用程序在特定数据节点上运行的方法

1条答案

相关问题

热门标签

最新问答