我需要执行基于yarn的hadoop2集群的容量规划。
以下是迄今为止我收到的与集群相关的输入。
每月需要接收大约100 tb的数据
这个数据量将逐渐增加大约每月5-10%。
在处理摄取的数据之后,保留期大约为10天。
将使用Hadoop2.x。
客户不愿意迁移到基于云的环境,如aws/azure等。
我试图通过以下几点来执行容量规划:
所需数据节点总数
namenode的容量,在cpu端和内存端。
cpu端和内存端所需的每个数据节点的容量。
所需的edgenode的容量,在cpu端和内存端(考虑到它将是整个集群的网关,用于数据摄取)。
群集的正确复制因子(3或更少?有什么指导方针吗?)
在群集级别实现保留期
如果有人有任何hadoop集群容量规划的经验,请分享你的经验/想法。如果您需要任何进一步的意见,请告诉我。
暂无答案!
目前还没有任何答案,快来回答吧!