aws emr s3distcp的性能问题

kknvjkwl  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(528)

我在emr集群上使用s3distcp,以便将大约200k个小文件(总共3.4gb)从一个s3存储桶聚合到同一存储桶中的另一个路径。它正在工作,但速度非常慢(超过20分钟后传输大约600mb)。
以下是我的电子病历配置:

1 master m5.xlarge
3 cores m5.xlarge
release label 5.29.0

命令:

s3-dist-cp --s3Endpoint=s3-eu-central-1.amazonaws.com --src=s3://my-bucket/input/ --dest=s3://my-bucket/output/ --groupBy=.*input/(entry).*(.json.gz) --targetSize=128

我错过什么了吗?我读到s3distcp可以在一瞬间传输很多文件,但我不知道如何传输。顺便说一下,emr和bucket都在同一个区域。
谢谢您。

cedebl8k

cedebl8k1#

这是推荐信
使用r类型示例。与m类型示例相比,它将提供更多的内存
使用coalesce合并源代码中的文件,因为您有许多小文件
检查Map器任务数。任务越多,性能就越差

相关问题