向aws emr提交作业,指定多个输入位置

fgw7neuy  于 2021-07-15  发布在  Hbase
关注(0)|答案(0)|浏览(446)

我有一个emr hbase集群在s3上运行。我有多个文件夹在s3中,我需要上传到电子病历。我使用aws lambda函数提交作业。下面是为1 s3文件夹提交emr作业的代码:

step = {
    'Name':'My step',
    'ActionOnFailure': 'CONTINUE',
    'HadoopJarStep': {
        'Jar': "/usr/lib/phoenix/phoenix-4.14.3-HBase-1.4-client.jar",
        'MainClass': "org.apache.phoenix.mapreduce.CsvBulkLoadTool",
        'Args': [
            '--table',
            table_name,
            '--input',
            's3://s3location1/',
            '--zookeeper',
            master_dns
        ]
     }
}
emr_client = boto3.client('emr')
response = emr_client.add_job_flow_step(
           JobFlowId=cluster_id,
           Steps=[step])

对于s3location1,作业运行正常。但现在我有多个s3位置,每个位置都有不同的名称,并且没有前缀。我需要提交这些文件夹的工作在1个单一的步骤以上。我如何提到下面文件夹的别名“--input”?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题