您对hdp集群上的raid1有何体验?我有两个选择:为主节点和zoo节点设置raid 1,在从属节点(如kafka代理、hbase区域服务器和yarn节点管理器)上根本不使用raid。即使我失去了一个从属节点,我也会有另外两个副本。在我看来,raid只会减慢集群的速度。尽管如此,还是要使用raid1设置所有内容。你觉得怎么样?您对hdp和raid有何体验?您如何看待将raid 0用于从属节点?
rxztt3cl1#
我建议在hadoop主机上不要使用raid。有一个警告,如果您在后台运行像oozie和hive metastore这样使用关系数据库的服务,那么raid在数据库主机上可能很有意义。在主节点上,假设您有namenode、zookeeper等—通常冗余是内置在服务中的。对于namenodes,所有数据都存储在两个namenodes上。对于zookeeper,如果丢失了一个节点,那么其他两个节点将拥有所有信息。zookeeper喜欢快速磁盘-理想情况下,将一个完整的磁盘奉献给zookeeper。如果您有namenode ha,则为namenode edits目录和每个日志节点提供一个专用磁盘。对于从属节点,datanode将在所有磁盘上进行写操作,从而有效地将数据条带化。每次“写”最多是hdfs块的大小,所以如果你在写一个大文件,你可以在磁盘1上得到128mb,然后在磁盘2上得到下一个128mb等等。
1条答案
按热度按时间rxztt3cl1#
我建议在hadoop主机上不要使用raid。有一个警告,如果您在后台运行像oozie和hive metastore这样使用关系数据库的服务,那么raid在数据库主机上可能很有意义。
在主节点上,假设您有namenode、zookeeper等—通常冗余是内置在服务中的。对于namenodes,所有数据都存储在两个namenodes上。对于zookeeper,如果丢失了一个节点,那么其他两个节点将拥有所有信息。
zookeeper喜欢快速磁盘-理想情况下,将一个完整的磁盘奉献给zookeeper。如果您有namenode ha,则为namenode edits目录和每个日志节点提供一个专用磁盘。
对于从属节点,datanode将在所有磁盘上进行写操作,从而有效地将数据条带化。每次“写”最多是hdfs块的大小,所以如果你在写一个大文件,你可以在磁盘1上得到128mb,然后在磁盘2上得到下一个128mb等等。