在spark阶段动态添加机器

js4nwp54 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(404)

我使用的是运行在azurevms上的spark独立集群版本2.3.0。Spark加工有5个阶段。我想在第0阶段之后添加更多计算机用于计算处理。
目前，我正在检查sparkapi的阶段完成情况。
spark 2.3.0中是否有可以启用的功能或属性？？

apache-spark Azure azure-virtual-machine

来源：https://stackoverflow.com/questions/62771158/dynamically-add-machines-in-spark-stage

1条答案

按热度按时间

siotufzp1#

在spark-on-yarn中，您可以通过以下设置启用动态分配

spark.dynamicAllocation.enabled     
spark.dynamicAllocation.minExecutors
spark.dynamicAllocation.maxExecutors
spark.dynamicAllocation.initialExecutors

如果您参考spark配置页面：动态资源分配spark提供了一种机制，可以根据工作负载动态调整应用程序占用的资源。这意味着您的应用程序可能会将不再使用的资源返回给集群，并在需要时再次请求它们。如果多个应用程序共享spark集群中的资源，则此功能特别有用。此功能在默认情况下被禁用，并且在所有粗粒度集群管理器上都可用，即独立模式、Yarn模式和mesos粗粒度模式。
文档链接：https://spark.apache.org/docs/2.2.0/job-scheduling.html#configuration-和设置
使用此功能有两个要求。首先，应用程序必须将spark.dynamicallocation.enabled设置为true。第二，您必须在同一集群中的每个工作节点上设置外部洗牌服务，并在应用程序中将spark.shuffle.service.enabled设置为true。
我不知道在azure上这有多容易处理，这里有一个关于emr上的动态资源的问题，没有直接的关系，但可以帮助您搜索。使用amazon的“maximizeresourceallocation”设置的spark+emr并不使用所有Core/vCore

赞(0）回复(0）举报 2021-05-27

我来回答

在spark阶段动态添加机器

1条答案

相关问题

热门标签

最新问答