我有一个关于胶水的问题。我当前的任务是从s3读取数据并将其写入elastisearch(在aws上)。我得用胶水。支持从s3读取glue作为源,但不能使用elasticsearch作为目标。我的问题是如何用最少的努力将数据从glue写入elasticsearch?
sxissh061#
如果必须使用glue,那么可以简单地利用glue编写python代码,而不必使用spark。将“type”配置为“pythonshell”的新作业。在编写python代码时,现在可以利用boto3库访问s3中的文件:
s3 = boto3.client('s3')
检索要上载到elastic search的文档后,可以使用post请求将文档上载到elastic search:
r = requests.post(url, auth=awsauth, json=document, headers=headers)
请参阅以下aws文档中的从amazon s3将流数据加载到amazon es部分。”将流式数据加载到amazon elasticsearch服务”
1条答案
按热度按时间sxissh061#
如果必须使用glue,那么可以简单地利用glue编写python代码,而不必使用spark。将“type”配置为“pythonshell”的新作业。在编写python代码时,现在可以利用boto3库访问s3中的文件:
检索要上载到elastic search的文档后,可以使用post请求将文档上载到elastic search:
请参阅以下aws文档中的从amazon s3将流数据加载到amazon es部分。”将流式数据加载到amazon elasticsearch服务”