apache—使用ebs在amazon web服务上设置hadoop群集

h6my8fg2 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(452)

我想知道如何通过aws设置hadoop集群（比如5个节点）。我知道如何在ec2上创建集群，但不知道如何面对以下挑战。
如果我失去了我的现场示例会发生什么。如何保持集群运行。
我正在处理一些1tb大小的数据集。是否可以相应地设置ebs。在这种情况下，如何访问hdfs。
任何帮助都太好了！

hadoop hdfs impala amazon-web-services apache

来源：https://stackoverflow.com/questions/45378612/setting-up-a-hadoop-cluster-on-amazon-web-services-with-ebs

2条答案

按热度按时间

o2g1uqev1#

您可以使用aws的emr服务—它是专门为ec2示例之上的hadoop集群设计的。它是完全管理的，并且预先打包了hadoop中所需的所有服务。
关于您的问题：
hadoop中有三种主要类型的节点：
主节点-单个节点，不需要发现它。
核心-一个处理任务的节点，有一部分hdfs
任务-处理任务的节点，但没有hdfs的任何部分
如果任务节点丢失（如果它们是spot示例），集群将继续正常工作。
关于存储，emr中的默认复制因子如下：
集群<四个节点为1
2对于<10个节点的集群
所有其他集群为3
但你可以改变它-http://docs.aws.amazon.com/emr/latest/releaseguide/emr-hdfs-config.html

赞(0）回复(0）举报 2021-05-29

z4iuyo4d2#

根据您的要求，这些建议会有所变化。但是，假设设置为2个主节点和3个工作节点，您可能可以将r3示例用于主节点，因为它们是内存密集型应用程序优化的，而将d2示例用于工作节点。d2示例有多个本地磁盘，因此可以承受一些磁盘故障，同时保持数据安全。
回答你的具体问题，
将hadoop机器视为任何linux应用程序。如果您的通用centos spot示例丢失，会发生什么情况？hwnce，一般建议使用保留示例。
hadoop通常通过维护3个拷贝并将它们以128或256mb块的形式分布在工作节点上来存储数据。因此，您将有3tb的数据要跨三个工作节点存储。显然，在计算空间需求时必须考虑一些开销。

赞(0）回复(0）举报 2021-05-29

我来回答

apache—使用ebs在amazon web服务上设置hadoop群集

2条答案

相关问题

热门标签

最新问答