缓存—将一个大文件(约6 gb)从s3复制到elastic mapreduce集群的每个节点

tez616oj  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(320)

结果表明,在引导操作中将一个大文件(约6gb)从s3复制到弹性mapreduce集群中的每个节点并不能很好地扩展;管道只有这么大,当#节点变大时,对节点的下载就会受到限制。
我正在运行一个包含22个步骤的作业流,其中可能有8个步骤需要这个文件。当然,我可以在每一步之前从s3复制到hdfs并缓存文件,但这是一个主要的速度杀手(而且会影响可伸缩性)。理想情况下,作业流将从每个节点上的文件开始。
至少可以通过作业流间接解决持久化缓存文件的stackoverflow问题:hadoop分布式缓存中的重用文件,hadoop分布式缓存的生命周期。
我觉得他们帮不了我。有人有什么新想法吗?

i7uaboj4

i7uaboj41#

两个想法,请考虑您的具体情况,随意忽略:
通过nfs与在同一放置组或az上具有足够好网络的示例类型的服务器共享文件。
让ebs piops卷和ebs优化示例预先加载文件,并在引导操作中将它们附加到节点上。

相关问题