我们一直在运行3节点AWS EMR集群(1个NameNode,2个DataNode)。我们发现没有发生Namenode检查指向,并且fsImage,md5文件没有更新。由于磁盘空间不足,编辑日志堆积,导致NameNode失败。
HDFS VErsion:Hadoop 2.8.3-amzn-0
-rw-r--r-- 1 hdfs hdfs 62 Sep 3 12:04 fsimage_0000000000000000000.md5
-rw-r--r-- 1 hdfs hdfs 317 Sep 3 12:04 fsimage_0000000000000000000
-rw-r--r-- 1 hdfs hdfs 260954697 Sep 3 13:49 edits_0000000000000000001-0000000000002061850
-rw-r--r-- 1 hdfs hdfs 270456683 Sep 3 14:54 edits_0000000000002061851-0000000000004196518
-rw-r--r-- 1 hdfs hdfs 256666626 Sep 3 15:54 edits_0000000000004196519-0000000000006223083
-rw-r--r-- 1 hdfs hdfs 256756282 Sep 3 16:54 edits_0000000000006223084-0000000000008250289
-rw-r--r-- 1 hdfs hdfs 263465424 Sep 3 17:59 edits_0000000000008250290-0000000000010330235
-rw-r--r-- 1 hdfs hdfs 257754598 Sep 3 19:49 edits_0000000000010330236-0000000000012365196
-rw-r--r-- 1 hdfs hdfs 257361703 Sep 3 21:39 edits_0000000000012365197-0000000000014396984
-rw-r--r-- 1 hdfs hdfs 258246258 Sep 3 23:29 edits_0000000000014396985-0000000000016435653
-rw-r--r-- 1 hdfs hdfs 257862137 Sep 4 01:19 edits_0000000000016435654-0000000000018471306
-rw-r--r-- 1 hdfs hdfs 257044520 Sep 4 03:09 edits_0000000000018471307-0000000000020496923
-rw-r--r-- 1 hdfs hdfs 256987603 Sep 4 04:59 edits_0000000000020496924-0000000000022520948
-rw-r--r-- 1 hdfs hdfs 254213703 Sep 4 06:44 edits_0000000000022520949-0000000000024522780
-rw-r--r-- 1 hdfs hdfs 265518336 Sep 4 08:34 edits_0000000000024522781-0000000000026613243
根据Hadoop 2.8.3
Secondary NameNode或CheckpointNode将在每个'dfs.namenode.checkpoint.txns'(默认-100000)事务中创建命名空间的检查点,无论'dfs.namenode.checkpoint.period'(默认值 - 3600秒)是否已过期。
但是在Namenode中没有发生检查点
您可以运行以下命令以使NameNode作为变通方法工作:
hdfs dfsadmin -safemode enter
hdfs dfsadmin -saveNamespace
hdfs dfsadmin -safemode leave
https://community.hortonworks.com/content/supportkb/49438/how-to-manually-checkpoint.html