hdp集群和raid?

t98cgbkg  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(321)

您对hdp集群上的raid1有何体验?
我有两个选择:
为主节点和zoo节点设置raid 1,在从属节点(如kafka代理、hbase区域服务器和yarn节点管理器)上根本不使用raid。
即使我失去了一个从属节点,我也会有另外两个副本。在我看来,raid只会减慢集群的速度。
尽管如此,还是要使用raid1设置所有内容。
你觉得怎么样?您对hdp和raid有何体验?您如何看待将raid 0用于从属节点?

rxztt3cl

rxztt3cl1#

我建议在hadoop主机上不要使用raid。有一个警告,如果您在后台运行像oozie和hive metastore这样使用关系数据库的服务,那么raid在数据库主机上可能很有意义。
在主节点上,假设您有namenode、zookeeper等—通常冗余是内置在服务中的。对于namenodes,所有数据都存储在两个namenodes上。对于zookeeper,如果丢失了一个节点,那么其他两个节点将拥有所有信息。
zookeeper喜欢快速磁盘-理想情况下,将一个完整的磁盘奉献给zookeeper。如果您有namenode ha,则为namenode edits目录和每个日志节点提供一个专用磁盘。
对于从属节点,datanode将在所有磁盘上进行写操作,从而有效地将数据条带化。每次“写”最多是hdfs块的大小,所以如果你在写一个大文件,你可以在磁盘1上得到128mb,然后在磁盘2上得到下一个128mb等等。

相关问题