我一直在寻找一个小时左右。我以为我在这里看到了一些东西,但我找不到它。
我正在寻找nagios.log的记录定义。具体来说,我试图弄清楚数字代表什么。在这个条目中,我想了解“1”是什么。
[1549377065] SERVICE ALERT:esgg; HTTP; CRITICAL; SOFT; 1; CRITICAL - 套接字超时
我确信这很容易找到,但我错了或只是在树林里迷路了。
它与Nagios中的soft&hard机制有关。
例如,如果您的服务esgg
在您的服务定义中设置了max_check_attempts 3
,那么您将看到如下内容:
[1549377065] SERVICE ALERT: esgg;HTTP;CRITICAL;SOFT;1;CRITICAL - Socket timeout
[1549377195] SERVICE ALERT: esgg;HTTP;CRITICAL;SOFT;2;CRITICAL - Socket timeout
[1549377265] SERVICE ALERT: esgg;HTTP;CRITICAL;HARD;3;CRITICAL - Socket timeout
您需要3次不良连续检查才能获得HARD状态和通知。
在Nagios服务定义中,您已设置“检查间隔”,“重试间隔”和“最大检查尝试次数”。换句话说,nagios会在每个check interval
分钟检查服务,然后如果不行,它将再次检查每个retry interval
分钟,为max check attempts
时间。您所指的数字是Nagios检查服务的次数,因为它进入“非正常”状态。它将增加,直到达到max check attempts
或返回到OK状态。