今天我的集群突然抱怨 38 个清理错误。 ceph pg Repair 帮助修复 不一致,但 ceph -s 仍然报告警告
ceph -s
cluster:
id: 86bbd6c5-ae96-4c78-8a5e-50623f0ae524
health: HEALTH_WARN
Too many repaired reads on 1 OSDs
services:
mon: 4 daemons, quorum s0,mbox,s1,r0 (age 35m)
mgr: s0(active, since 10d), standbys: s1, r0
mds: fs:1 {0=s0=up:active} 3 up:standby
osd: 10 osds: 10 up, 10 in
data:
pools: 6 pools, 289 pgs
objects: 1.29M objects, 1.6 TiB
usage: 3.3 TiB used, 7.4 TiB / 11 TiB avail
pgs: 289 active+clean
阅读完我尝试过的文档后:
ceph tell osd.8 clear_shards_repaired
no valid command found; 10 closest matches:
0
1
2
abort
assert
bench [<count:int>] [<size:int>] [<object_size:int>] [<object_num:int>]
bluefs stats
bluestore allocator dump block
bluestore allocator dump bluefs-db
bluestore allocator fragmentation block
Error EINVAL: invalid command
正如你所看到的,有一个问题。我的 ceph 版本是:
ceph version
ceph version 15.2.9 (357616cbf726abb779ca75a551e8d02568e15b17) octopus (stable)
ceph health detail
HEALTH_WARN Too many repaired reads on 1 OSDs
[WRN] OSD_TOO_MANY_REPAIRS: Too many repaired reads on 1 OSDs
osd.8 had 38 reads repaired
我如何摆脱警告,如何找出问题到底是什么。 所有磁盘均正常。日记里什么也没有。 smartctl -t短/dev/sdd很高兴。
任何帮助表示赞赏。
马格努斯
我偶然发现这篇文章也有同样的问题,并联系了邮件列表。简单的答案是:重新启动有问题的 OSD。这足以让我在太平洋摆脱警告。
问候
.萨沙
我遇到了同样的错误。当我登录 OSD 不一致的主机时,系统日志中出现磁盘硬件错误。这样你就可以检查硬件日志了。