出现奇怪的 dmesg 错误,然后使用 CUDA 的程序挂起

问题描述 投票:0回答:0

我正在尝试调试我的某个使用 CUDA(特别是 CUDA 图)的程序。这个程序(有时)触发一个错误,然后死掉——相对优雅。然而,在它失败之后,当我尝试使用 GPU 运行任何其他程序时 - 它们在启动时立即挂起 - 并且无法被杀死,即使是

kill -KILL
root.

查看我的 dmesg 输出(这是一台 Linux 机器),我看到以下结尾行:

[  155.786155] nvidia_uvm: module uses symbols nvUvmInterfaceDisableAccessCntr from proprietary module nvidia, inheriting taint.
[  155.813728] nvidia-uvm: Loaded the UVM driver, major device number 236.
[  209.863685] NVRM: GPU at PCI:0000:01:00: GPU-82f73d0a-cec0-ed8b-f7da-e87d7ed83f69
[  209.863689] NVRM: Xid (PCI:0000:01:00): 31, pid=2823, name=simpleCudaGraph, Ch 00000010, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_T1_0 faulted @ 0x7fcb_83c00000. Fault is of type FAULT_PDE ACCESS_TYPE_READ
[  225.483961] NVRM: Xid (PCI:0000:01:00): 31, pid=3114, name=simpleCudaGraph, Ch 00000010, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_T1_0 faulted @ 0x7f3e_d5c00000. Fault is of type FAULT_PDE ACCESS_TYPE_READ

怎么回事?

关于我的系统的一些信息:Devuan Daedalus,内核 6.1.20-1。 CPU是英特尔i5 7600K。如果任何其他信息可能有用,请询问,我会添加它。

cuda freeze kill cuda-driver
© www.soinside.com 2019 - 2024. All rights reserved.