我想扩大spark集群,以便在开始处理之前启动并运行所有工作节点。这个问题是因为工作节点的自动缩放不会在加载时立即发生,并且会导致工作节点崩溃。集群有32个节点,但是只重载了4个节点并且崩溃了,所以我要做的是在python笔记本的开头写几行代码,这会启动其余的节点,让24个节点启动并运行,然后做实际的数据处理。这可能是使用代码吗?请告知。
pzfprimi1#
通常,自动缩放用于交互式工作负载。我很少看到它在工作中提供好处,尽管市场营销很好地将它作为一种节省成本的功能来销售。您可以使用databricks作业来创建自动化集群。在新的自动化群集上运行作业并在作业完成时终止群集时。如果您知道什么时候应该比自动缩放更好地进行缩放,那么可以使用此调整大小api:https://docs.databricks.com/dev-tools/api/latest/clusters.html#resize
1条答案
按热度按时间pzfprimi1#
通常,自动缩放用于交互式工作负载。我很少看到它在工作中提供好处,尽管市场营销很好地将它作为一种节省成本的功能来销售。
您可以使用databricks作业来创建自动化集群。在新的自动化群集上运行作业并在作业完成时终止群集时。
如果您知道什么时候应该比自动缩放更好地进行缩放,那么可以使用此调整大小api:https://docs.databricks.com/dev-tools/api/latest/clusters.html#resize