结果表明,在引导操作中将一个大文件(约6gb)从s3复制到弹性mapreduce集群中的每个节点并不能很好地扩展;管道只有这么大,当#节点变大时,对节点的下载就会受到限制。
我正在运行一个包含22个步骤的作业流,其中可能有8个步骤需要这个文件。当然,我可以在每一步之前从s3复制到hdfs并缓存文件,但这是一个主要的速度杀手(而且会影响可伸缩性)。理想情况下,作业流将从每个节点上的文件开始。
至少可以通过作业流间接解决持久化缓存文件的stackoverflow问题:hadoop分布式缓存中的重用文件,hadoop分布式缓存的生命周期。
我觉得他们帮不了我。有人有什么新想法吗?
1条答案
按热度按时间i7uaboj41#
两个想法,请考虑您的具体情况,随意忽略:
通过nfs与在同一放置组或az上具有足够好网络的示例类型的服务器共享文件。
让ebs piops卷和ebs优化示例预先加载文件,并在引导操作中将它们附加到节点上。