我想基于s3上的文件上传事件在aws emr集群上执行spark submit作业。我正在使用aws lambda函数来捕获事件,但是我不知道如何从lambda函数提交emr集群上的spark submit作业。
我搜索的大多数答案都谈到在emr集群中添加一个步骤。但我不知道是否可以在添加的步骤中添加任何步骤来触发“spark submit--with args”。
我想基于s3上的文件上传事件在aws emr集群上执行spark submit作业。我正在使用aws lambda函数来捕获事件,但是我不知道如何从lambda函数提交emr集群上的spark submit作业。
我搜索的大多数答案都谈到在emr集群中添加一个步骤。但我不知道是否可以在添加的步骤中添加任何步骤来触发“spark submit--with args”。
2条答案
按热度按时间vwhgwdsa1#
你可以的,我上周也做了同样的事!
使用boto3 for python(其他语言肯定会有类似的解决方案)可以使用定义的步骤启动集群,或者将步骤附加到已经启动的集群。
使用步骤定义集群
将步骤附加到已运行的群集
根据此处
xa9qqrwz2#
如果要使用spark submit命令执行spark jar,请使用aws lambda函数python代码: