SLURM群集中的错误 - 检测到1个oom-kill事件:如何改进正在运行的作业

问题描述 投票:5回答:1

我在SLURM集群中工作,我同时运行多个进程(在几个输入文件上),并使用相同的bash脚本。

在工作结束时,该过程被杀死,这是我获得的错误。

slurmstepd: error: Detected 1 oom-kill event(s) in step 1090990.batch cgroup.

我的猜测是内存存在一些问题。但我怎么能知道更多?我没有提供足够的记忆吗?或者作为我请求的用户比我访问的更多?

有什么建议吗?

memory cluster-computing slurm
1个回答
2
投票

OOM代表“Out of Memory”。当Linux内存不足时,它会“破坏”一个进程来保持关键进程的运行。看起来slurmstepd发现你的进程被杀死了。 Oracle有这种机制的a nice explanation

如果您请求的内存多于允许的内存,则该进程将不会分配给节点,并且计算也不会启动。看起来你需要更多的内存。

© www.soinside.com 2019 - 2024. All rights reserved.