emr与aws上的ec2/hadoop之比较

hgncfbus  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(459)

我知道ec2比emr更灵活,但要比emr做更多的工作。然而,就成本而言,如果使用ec2,它可能需要连接到ec2示例的ebs卷,而aws只是从s3传输数据。所以在aws计算器上计算数字,即使emr也要为ec2付费,emr也比ec2便宜??我错了吗?当然,带ebs的ec2可能更快,但它值得付出代价吗?
谢谢,马特

9vw9lbht

9vw9lbht1#

emr为您做了很多在ec2上的标准hadoop上找不到的事情。一些特别重要的问题包括
将hadoop日志从计算机复制到s3。这对于在集群关闭后调试错误非常有用。
运行多个mapreduce、pig或hive作业的作业流
根据您选择的硬件大小设置合理的配置默认值
访问spot示例以获得更便宜的计算
动态调整群集大小的能力
您还将发现emrs3文件系统比用apachehadoop打包的标准文件系统更快、更可靠。它支持多部分上传,流直接写入s3,而不是先缓冲到磁盘。更多信息,请参阅提示5
另外,如果您决定直接使用ec2,我建议您的节点使用示例存储而不是ebs。实际上没有理由为hadoop支付ebs的额外费用;您会注意到,emr集群也都在示例存储节点上运行。

qgelzfjb

qgelzfjb2#

emr使用示例存储支持的ec2示例,而不是ebs,这是正确的。但是,没有什么可以阻止您创建基于示例存储的示例,打包ami并将其用于hadoop集群。根据您的工作量和频率,使用ebs也可能不会带来很多额外的成本。另外,当通过emr使用ec2示例时,它会增加成本。
我已经使用emr两年了,我强烈推荐这项服务,因为您不需要花费时间来管理和更新您的发行版。如果您的工作负载与emr(从dynamodb或s3获取数据)兼容,我会选择emr而不是ec2/hadoop。

相关问题