感谢您阅读这个问题
我有兴趣根据当前使用情况实现 GPU 的动态和公平分配。例如,在具有 12 个 GPU 和 3 个用户的服务器中,我最初会公平地为每个用户分配 4 个 GPU。
随着情况的变化,如果一个用户没有使用他们的分配,我想重新分配 GPU,以便其他两个用户各获得 6 个 GPU。同样,如果当前没有用户使用 GPU,则单个用户应该能够使用所有 12 个 GPU。
根据我的研究,Slurm 中似乎并不具备这样的功能。我想知道是否有任何我可能不知道的功能或插件可以促进这种动态 GPU 分配?
您所描述的是如果在多个作业过程中配置了fairshare,Slurm 将执行的操作。
但是,它不会在作业运行期间更改作业分配。
所以只要用户提交作业并且作业有时间限制,从长远来看,每个人都会公平地获得资源,同时如果其他用户不使用,偶尔也可以使用所有资源到时候需要它们。