每月接收100 tb数据的hadoop群集容量规划

xcitsw88  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(157)

我需要执行基于yarn的hadoop2集群的容量规划。
以下是迄今为止我收到的与集群相关的输入。
每月需要接收大约100 tb的数据
这个数据量将逐渐增加大约每月5-10%。
在处理摄取的数据之后,保留期大约为10天。
将使用Hadoop2.x。
客户不愿意迁移到基于云的环境,如aws/azure等。
我试图通过以下几点来执行容量规划:
所需数据节点总数
namenode的容量,在cpu端和内存端。
cpu端和内存端所需的每个数据节点的容量。
所需的edgenode的容量,在cpu端和内存端(考虑到它将是整个集群的网关,用于数据摄取)。
群集的正确复制因子(3或更少?有什么指导方针吗?)
在群集级别实现保留期
如果有人有任何hadoop集群容量规划的经验,请分享你的经验/想法。如果您需要任何进一步的意见,请告诉我。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题