假设我们有以下集群,并提供以下详细信息
10个节点HDFS群集,其中4个磁盘大小为10 TB,而6个节点磁盘大小为1TB
在Hadoop-2.6,cloudera-5.8上,如果数据节点计算机上的磁盘大小不同,我们可以将默认值从循环更改为可用空间
示例
请看dfs.datanode.fsdataset.volume.choosing.policy。默认情况下,此选项设置为循环,但是由于您具有非对称磁盘设置,因此应将其更改为可用空间。
由于我们拥有hortonwoks HDP集群版本2.6.5,
我们正在搜索相同的能力
所以我们在ambari HDFS中搜索->配置但是我们找不到关于round-robin / available space.
剂量HDP 2.6.5 ambari
群集可以提供此功能吗?
目标是平衡所有磁盘上的数据,考虑到一些磁盘较小,然后另一些磁盘
我不熟悉任何这样的平衡规则或属性,但是您可以在Ambari配置中应用节点标签,以便您的数据节点将使用不同的配置(例如数据节点的安装点)加载]
我完成重新平衡的唯一方法是通过HDFS重新平衡CLI
[您也可以尝试将dfs.datanode.fsdataset.volume.choosing.policy
属性放入自定义hdfs-site.xml部分,但是根据我发现的Cloudera论坛,默认为Round Robin,不建议使用可用空间
如果仍然要将其设置为可用空间属性,则org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy