我正在开发azure数据包。目前我的pyspark项目在dbfs上。我配置了一个spark提交作业来执行pyspark代码(.py文件)。然而,根据databricks文档,spark submit作业只能在新的自动化集群上运行(这可能是设计的)。
有没有办法在现有的交互式集群上运行pyspark代码?
我还尝试从%sh单元格中的笔记本运行spark submit命令。
我正在开发azure数据包。目前我的pyspark项目在dbfs上。我配置了一个spark提交作业来执行pyspark代码(.py文件)。然而,根据databricks文档,spark submit作业只能在新的自动化集群上运行(这可能是设计的)。
有没有办法在现有的交互式集群上运行pyspark代码?
我还尝试从%sh单元格中的笔记本运行spark submit命令。
1条答案
按热度按时间kqqjbcuj1#
默认情况下,创建作业时,集群类型选择为“new automated cluster”。
您可以将集群类型配置为在自动集群或现有交互式集群之间进行选择。
配置作业的步骤:
选择job=>单击cluster=>edit按钮并选择“existinginteractivecluster”并选择集群。