**结束了。**这个问题离题了。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。
8年前关门了。
改进这个问题
我有几个hadoop作业,我在emr上运行。其中一些作业需要处理日志文件。日志文件是巨大的~3gb,每一个都是.gz格式。日志存储在s3上。
目前,我使用m1.xlarge进行处理,仅将日志文件从s3复制到hdfs大约需要3小时。在这里,瓶颈是从s3读取还是写入hdfs?
我计划使用新的基于ssd的hi1.4xlarge,因为它具有快速的i/o,而不是m1.xlarge。但这有助于降低成本吗?
但是hi1.4x的成本要比m1.xlarge大得多。
m1.xlarge-8 ec2计算单位@0.614$每个=4.912$/小时h1.4XL-35 ec2计算单位@3.1$每个=108.5$/小时
价格上涨了23倍左右。我的表现会有那么大的提高吗?将我的hadoop作业视为高i/o限制。
我无法通过启动hi1.4x1.4x1大型示例来测试它,所以在stackoverflow上请求它。有人有比较这两种示例类型的基准吗?谷歌没有帮助。
当做。
1条答案
按热度按时间xcitsw881#
我不认为ssd示例是好的选择,因为它们的值在高随机io中,而在hadoop中我们需要顺序io。
在从s3复制到hdfs的过程中,s3无疑是一个瓶颈。
为了省钱,我建议尝试更小的示例来平衡io和cpu
您是否使用distcp将数据从s3复制到hdfs(只是为了检查…)
如果您在每个集群生存期处理一次日志,那么您可以直接从s3处理日志,避免复制到hdfs。