docker:守护程序的错误响应:无法选择具有以下功能的设备驱动程序“”:[[gpu]]。安装 nvidia-docker2 之后

问题描述 投票:0回答:2

我按照官方文档中的说明安装了 nvidia-docker2 https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html

每当我运行他们的测试示例时:

sudo docker run --rm --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi

我仍然收到错误:

docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]. 3

我重启了还是没有效果。

我使用的是 Ubuntu 22.04,并且更新了我的 nvidia 驱动程序。 Nvidia-smi 在机器上可以工作,但不能使用 docker 工作

编辑(已解决):最后我发现发生了什么事。 重新安装时,它可以工作,但是如果重新启动,它又会回到之前无法工作的状态。

这是由于使用“snapd”安装了另一个 docker 服务,所以我必须完全清除 docker:

sudo snap remove docker
,在我可以“重新安装所有内容”之后,它终于稳定了,即使在重新启动后也如此

docker nvidia nvidia-docker
2个回答
1
投票

不幸的是,我无法正确“修复”这个问题,所以我清除了所有 docker 软件包和所有 nvidia 容器软件包并重新安装了所有内容,现在它可以工作了!!

好的旧方法很好用:)


0
投票

我也有同样的问题。我注意到,我没有安装“NVIDIA Container Toolkit”。安装容器工具包后,就可以使用了。官方说明位于:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

  1. 配置存储库:

    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
    && 卷曲-s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list |
    sed 's#deb https://#deb [签名者=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' |
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
    &&
    sudo apt-get 更新

  2. 安装 NVIDIA Container Toolkit 软件包:

    sudo apt-get install -y nvidia-container-toolkit

  3. 使用 nvidia-ctk 命令配置容器运行时:

    sudo nvidia-ctk 运行时配置 --runtime=docker

  4. 重新启动 Docker 守护进程:

    sudo systemctl 重新启动 docker

© www.soinside.com 2019 - 2024. All rights reserved.