我继承了CondorHT集群,该集群处理云指标。一个主控制器节点。六个工作节点。群集运行了好几个月,然后突然坏了。群集通常需要1到2个小时才能完成,但现在永远无法完成,并且会在午夜每天定时关闭cron来关闭/关闭。
主节点上的CollectorLog会更新,并显示表明正在发生某些活动的消息。消息大约每20秒发送一次。
主节点和辅助节点上的ProcLog每20秒更新一次消息。 “没有方法确定进程xxxx属于受监视的家庭。...拍摄快照...快照完成。”
主节点上的condor_status将所有进程显示为IDLE。
我该如何调试?
嗯。 HTCondor的工作方式是在机器上调度作业。听起来工作很闲。或者,也许没有任何工作。所以,让我们从那里开始。如果您运行condor_q或condor_q -all(取决于condor的版本),那么这对作业有何说明?