我想知道如何通过aws设置hadoop集群(比如5个节点)。我知道如何在ec2上创建集群,但不知道如何面对以下挑战。如果我失去了我的现场示例会发生什么。如何保持集群运行。我正在处理一些1tb大小的数据集。是否可以相应地设置ebs。在这种情况下,如何访问hdfs。任何帮助都太好了!
o2g1uqev1#
您可以使用aws的emr服务—它是专门为ec2示例之上的hadoop集群设计的。它是完全管理的,并且预先打包了hadoop中所需的所有服务。关于您的问题:hadoop中有三种主要类型的节点:主节点-单个节点,不需要发现它。核心-一个处理任务的节点,有一部分hdfs任务-处理任务的节点,但没有hdfs的任何部分如果任务节点丢失(如果它们是spot示例),集群将继续正常工作。关于存储,emr中的默认复制因子如下:集群<四个节点为12对于<10个节点的集群所有其他集群为3但你可以改变它-http://docs.aws.amazon.com/emr/latest/releaseguide/emr-hdfs-config.html
z4iuyo4d2#
根据您的要求,这些建议会有所变化。但是,假设设置为2个主节点和3个工作节点,您可能可以将r3示例用于主节点,因为它们是内存密集型应用程序优化的,而将d2示例用于工作节点。d2示例有多个本地磁盘,因此可以承受一些磁盘故障,同时保持数据安全。回答你的具体问题,将hadoop机器视为任何linux应用程序。如果您的通用centos spot示例丢失,会发生什么情况?hwnce,一般建议使用保留示例。hadoop通常通过维护3个拷贝并将它们以128或256mb块的形式分布在工作节点上来存储数据。因此,您将有3tb的数据要跨三个工作节点存储。显然,在计算空间需求时必须考虑一些开销。
2条答案
按热度按时间o2g1uqev1#
您可以使用aws的emr服务—它是专门为ec2示例之上的hadoop集群设计的。它是完全管理的,并且预先打包了hadoop中所需的所有服务。
关于您的问题:
hadoop中有三种主要类型的节点:
主节点-单个节点,不需要发现它。
核心-一个处理任务的节点,有一部分hdfs
任务-处理任务的节点,但没有hdfs的任何部分
如果任务节点丢失(如果它们是spot示例),集群将继续正常工作。
关于存储,emr中的默认复制因子如下:
集群<四个节点为1
2对于<10个节点的集群
所有其他集群为3
但你可以改变它-http://docs.aws.amazon.com/emr/latest/releaseguide/emr-hdfs-config.html
z4iuyo4d2#
根据您的要求,这些建议会有所变化。但是,假设设置为2个主节点和3个工作节点,您可能可以将r3示例用于主节点,因为它们是内存密集型应用程序优化的,而将d2示例用于工作节点。d2示例有多个本地磁盘,因此可以承受一些磁盘故障,同时保持数据安全。
回答你的具体问题,
将hadoop机器视为任何linux应用程序。如果您的通用centos spot示例丢失,会发生什么情况?hwnce,一般建议使用保留示例。
hadoop通常通过维护3个拷贝并将它们以128或256mb块的形式分布在工作节点上来存储数据。因此,您将有3tb的数据要跨三个工作节点存储。显然,在计算空间需求时必须考虑一些开销。