如何在群集(qsub)中重新启动失败的PBS作业?

问题描述 投票:1回答:1

我正在使用qsub命令在集群中运行PBS作业(python)。我很想知道如何从失败的步骤中重新启动相同的工作?任何类型的帮助将受到高度赞赏。

python-3.x pbs qsub torque
1个回答
1
投票

最有可能的是,你做不到。

重新启动作业需要检查点文件。 为此,必须在HPC环境中显式配置检查点支持,然后必须使用其他命令行参数提交作业。

http://docs.adaptivecomputing.com/torque/3-0-5/2.6jobcheckpoint.php

© www.soinside.com 2019 - 2024. All rights reserved.