使用更大的硬盘驱动器向datanode添加新磁盘

kyvafyod  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(396)

我用一些datanode运行hdfs,每个datanode都有8 x 1tb的硬盘驱动器。
我想为每个数据节点添加2 x 2tb的硬盘驱动程序。我知道如何为datanode添加新的硬驱动程序,但是我混淆了新的硬驱动程序比旧的硬驱动程序大,所以在datanode上的硬驱动程序之间可能存在数据分布问题。
我认为最好在2tb硬盘驱动器上创建2个逻辑驱动程序(1tb),然后将其装载到操作系统上,这样每个数据节点路径的卷都是相同的。
我需要一些建议。感谢阅读!

lvmkulzt

lvmkulzt1#

如果您在一个datanode中有大小不一的磁盘,那么一个常见的问题是较小的磁盘比最大的磁盘填充得快。这是因为datanode中的默认卷选择策略是循环。基本上,datanode将依次向每个磁盘写入新数据,而不考虑磁盘的大小或可用空间。
有一种替代卷选择策略,非常适合在具有混合大小磁盘的数据节点上使用,称为availablespacevolumechoosingpolicy—我不确定您使用的是哪种hadoop发行版,但cdh文档是:
https://www.cloudera.com/documentation/enterprise/5-5-x/topics/admin_dn_storage_balancing.html#concept_tws_bbg_2r
如果更改为该策略,则默认情况下,75%的新写入将转到未充分使用的磁盘,直到它们赶上其他磁盘,然后它将返回到循环写入。

相关问题