缓存—将一个大文件(约6 gb)从s3复制到elastic mapreduce集群的每个节点

tez616oj 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(309)

结果表明，在引导操作中将一个大文件（约6gb）从s3复制到弹性mapreduce集群中的每个节点并不能很好地扩展；管道只有这么大，当#节点变大时，对节点的下载就会受到限制。
我正在运行一个包含22个步骤的作业流，其中可能有8个步骤需要这个文件。当然，我可以在每一步之前从s3复制到hdfs并缓存文件，但这是一个主要的速度杀手（而且会影响可伸缩性）。理想情况下，作业流将从每个节点上的文件开始。
至少可以通过作业流间接解决持久化缓存文件的stackoverflow问题：hadoop分布式缓存中的重用文件，hadoop分布式缓存的生命周期。
我觉得他们帮不了我。有人有什么新想法吗？

hadoop amazon-s3 amazon-web-services Caching elastic-map-reduce

来源：https://stackoverflow.com/questions/23790925/copying-a-large-file-6-gb-from-s3-to-every-node-of-an-elastic-mapreduce-clust