CondorHT-六个空闲Procs都连续创建快照。怎么了?

问题描述 投票:0回答:1

我继承了CondorHT集群,该集群处理云指标。一个主控制器节点。六个工作节点。群集运行了好几个月,然后突然坏了。群集通常需要1到2个小时才能完成,但现在永远无法完成,并且会在午夜每天定时关闭cron来关闭/关闭。

主节点上的CollectorLog会更新,并显示表明正在发生某些活动的消息。消息大约每20秒发送一次。

主节点和辅助节点上的ProcLog每20秒更新一次消息。 “没有方法确定进程xxxx属于受监视的家庭。...拍摄快照...快照完成。”

主节点上的condor_status将所有进程显示为IDLE。

我该如何调试?

condor
1个回答
0
投票

嗯。 HTCondor的工作方式是在机器上调度作业。听起来工作很闲。或者,也许没有任何工作。所以,让我们从那里开始。如果您运行condor_q或condor_q -all(取决于condor的版本),那么这对作业有何说明?

© www.soinside.com 2019 - 2024. All rights reserved.