将1亿个文件写入s3

vh0rcniy 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(547)

我的主要目标是根据每个记录的ID将记录分割成文件，现在有超过150亿条记录，当然可以增加。我需要一个可扩展的解决方案使用亚马逊电子病历。我已经为一个有大约9亿条记录的较小的数据集完成了这项工作。
输入文件采用csv格式，其中一个字段必须是输出中的文件名。假设有以下输入记录：

awesomeId1, somedetail1, somedetail2
awesomeID1, somedetail3, somedetail4
awesomeID2, somedetail5, somedetail6

所以现在应该有两个文件作为输出，其中一个名为 awesomeID1.dat 以及其他 awesomeID2.dat ，每个都有与各自id相关的记录。
输入大小：每月总共600 gb（gzippef文件大小），每个文件大约2.3 gb。我需要一次处理6个月或更长时间。所以总的数据大小将是6*600GB（压缩）。
以前我 Too many open files 使用时出错 FileByKeyTextOutputFormat extends MultipleTextOutputFormat<Text, Text> 根据id值写入s3。然后，正如我在这里解释的那样，我没有将每个文件直接写入s3，而是在本地编写它们，并将它们以1024个文件的批处理方式移动到s3。
但是现在随着数据量的增加，我从s3得到了以下消息，然后它跳过了编写有问题的文件： "Please reduce your request rate." 另外，我必须在一个集群上运行200 m1.xlarge机器，然后需要大约2小时，因此它是非常昂贵的！
我想有一个可扩展的解决方案，这将不会失败，如果数据量在未来再次增加。
有什么建议吗？

hadoop amazon-emr amazon-s3 emr elastic-map-reduce

来源：https://stackoverflow.com/questions/14081123/write-100-million-files-to-s3

1条答案

按热度按时间

3lxsmp7m1#

以下是有关减速错误的一些信息：https://forums.aws.amazon.com/message.jspa?messageid=89722#89816 你应该按字母顺序插入s3。此外，限制是动态的，并随着时间的推移重新调整，所以放慢速度，并尝试提高您的速度后。
也许使用数据库比使用文件系统更好？整个数据集有多大？
dynamodb可能很合适，但可能贵到1美元/gb/月(因为它使用ssd作为备份存储。）
rds是另一种选择。其定价为每月0.10美元/gb。
更好的做法可能是在ec2上托管自己的nosql或其他数据存储，例如在新的hs1.8x1大型示例上。您只能在需要时启动它，不需要时将其备份到s3。

赞(0）回复(0）举报 2021-06-04

我来回答

将1亿个文件写入s3

1条答案

相关问题

热门标签

最新问答