我正在尝试使用我的 GPU 作为 Pytorch 的计算引擎。
我在本地计算机上安装了所有带有 CUDA 11.8 的驱动程序 (522.06),但 Pytorch 无法识别我的 GPU。
我使用了不同的下载选项,最后一个:
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
以下步骤可能有帮助:-
你有基于 nvidia 的 CPU 吗? (相对于基于 AMD 的 RADEON)? 你运行什么操作系统?
如果您有基于 nvidia 的 GPU,则需要先为您的操作系统安装 NVIDIA 驱动程序,然后安装 Nvidia CUDA 工具包。要确认驱动程序安装正确,请从终端运行 nvidia-smi 命令。它应该显示您系统中拥有的 GPU。如果此命令失败,请尝试重新安装。我还列出了以下步骤。
如果启用了安全启动,也可能会导致驱动程序安装失败。请阅读下文,了解如何在不禁用安全启动的情况下启用安全启动并安装驱动程序。
假设您正在运行 ubuntu 运行以下命令
ubuntu-drivers devices
如果命令失败,请先通过运行安装软件包:
sudo apt install ubuntu-drivers-common
该命令将列出您拥有的 nvidia 卡类型以及需要安装的设备驱动程序。查找以“推荐”结尾的行。
例如,这就是我的样子:
vendor : NVIDIA Corporation
model : TU106M [GeForce RTX 2070 Mobile / Max-Q Refresh]
driver : nvidia-driver-525 - distro non-free
driver : nvidia-driver-470-server - distro non-free
driver : nvidia-driver-525-open - distro non-free recommended
我尝试安装“nvidia-driver-525-open”驱动程序,但它不起作用。我尝试了“nvidia-driver-525”,它有效。所以请随意尝试使用
sudo apt-get install nvidia-driver-525 (modify the driver name with whatever you see from the output of the ubunt-drivers above)
如果您有启用 UEFI 的计算机(即在 BIOS 中启用安全启动),此安装将提示您指定“密码/密钥”。安装完成后,重新启动计算机时,系统将提示您 3 个选项。我不记得它们是什么,但大致第一个是“继续启动”。第二个是“使用密钥注册”或类似的内容。重要的是,不要继续启动,选择第二个选项来注册您刚刚安装的驱动程序,它会提示您输入在安装过程中输入的“密码”。
安装完驱动程序后,请发出以下命令:
nvidia-smi
您应该会看到如下列出的视频卡:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.60.11 Driver Version: 525.60.11 CUDA Version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|======================+======================+======================|
| 0 NVIDIA GeForce ... Off | 00000000:01:00.0 Off | N/A |
| N/A 36C P8 5W / N/A | 3MiB / 8192MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
如果您没有看到上面的输出,请尝试使用 ubuntu-drivers 命令中的不同驱动程序。我尝试了开放版本,但没有成功。 如果您在运行 nvidia-smi 命令时遇到问题,这意味着您尚未成功安装驱动程序。我不推荐的一种选择是从 BIOS 禁用安全启动。
安装驱动程序后,继续安装Cuda工具包。我从 nvidia 网站选择了 runfile/local 安装类型。您可以在此处查看 nvidia 的安装指南。
此安装运行时会提示您重新安装驱动程序。如果您已成功安装上述驱动程序,请勿再次安装驱动程序。我尝试从这个运行文件安装驱动程序,但它对我不起作用。
安装后,运行以下命令:
nvcc -V
它应该告诉你 CUDA 驱动程序已安装,并且它会告诉你 cuda 版本
可能还有其他简洁的选择,但要在 3050 ti 上使用 Cuda,维基百科在链接中提供了各种 GPU 类型的 Cuda 版本兼容性,https://en.wikipedia.org/wiki/CUDA。 3050 Ti、3090 Ti等计算能力为8.6,对应Cuda SDK版本11.1 - 11.4。
我在(base)旁边创建了另一个环境,它是随Python 3.11一起安装的。对于具有降级 Python 版本的 conda (<3.10), this installation code worked for me. You can copy and run it in the anaconda prompt.
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1
cudatoolkit=11.3 -c pytorch
p.s,您可以按照链接中的说明检查如何在 conda 中创建和管理环境https://conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html#activating-一个环境。