NVRM：RmInitAdapter失败：Xid：79，GPU从总线上掉了下来

Question

有两次，当我使用4x1080ti训练模型时，服务器停机了。为什么服务器崩溃了？

我得到sysylog并发现有关Nvidia驱动程序或GPU的错误。

[第二个]

9月6日21:11:41 gpu-8-server-intesight内核：[31429.221258] NVRM：RmInitAdapter失败了！（的0x30：为0xFFFF：682）

9月6日21:11:41 gpu-8-server-intesight内核：[31429.221337] NVRM：rm_init_adapter因设备承载次要编号0失败

9月6日21:13:54 gpu-8-server-intesight内核：[31562.154256] NVRM：RmInitAdapter失败！（的0x30：为0xFFFF：682）

9月6日21:13:54 gpu-8-server-intesight内核：[31562.154306] NVRM：rm_init_adapter因设备承载次要编号1而失败

[第一个]

9月6日02:48:40 gpu-8-server-intesight内核：[557998.990374] NVRM：GPU上的GPU：0000：04：00：GPU-bc54db68-a3cb-54e9-7287-b95c69e41cf1

9月6日02:48:40 gpu-8-server-intesight内核：[557998.990375] NVRM：GPU板序列号：

9月6日02:48:40 gpu-8-server-intesight内核：[557998.990376] NVRM：Xid（PCI：0000：04：00）：79，GPU从总线上掉了下来。

9月6日02:48:40 gpu-8-server-intesight内核：[557998.990377] NVRM：0000：04：00.0的GPU从总线上掉了下来。

9月6日02:48:40 gpu-8-server-intesight内核：[557998.990377] NVRM：GPU在板上。

9月6日02:48:40 gpu-8-server-intesight内核：[557998.990655] NVRM：已创建GPU故障转储。如果可能的话，请运行

9月6日02:48:40 gpu-8-server-intesight内核：[557998.990655] NVRM：nvidia-bug-report.sh作为root来收集这些数据之前

9月6日02:48:40 gpu-8-server-intesight内核：[557998.990655] NVRM：卸载NVIDIA内核模块。

9月6日02:48:41 gpu-8-server-intesight内核：[557999.884383] NVRM：0000：04：00.0的GPU从总线上掉了下来。

9月6日02:48:41 gpu-8-server-intesight内核：[557999.901942] NVRM：已创建GPU故障转储。如果可能的话，请运行

9月6日02:48:41 gpu-8-server-intesight内核：[557999.901942] NVRM：nvidia-bug-report.sh作为root用户收集此数据之前

9月6日02:48:41 gpu-8-server-intesight内核：[557999.901942] NVRM：卸载NVIDIA内核模块。

9月6日02:48:41 gpu-8-server-intesight内核：[558000.356948] NVRM：RmInitAdapter失败了！（的0x30：为0xFFFF：682）

9月6日02:48:41 gpu-8-server-intesight内核：[558000.444379] NVRM：rm_init_adapter因设备承载次要编号0失败

9月6日02:48:45 gpu-8-server-intesight内核：[558004.604173] NVRM：request_irq（）失败（-22）

9月6日02:48:48 gpu-8-server-intesight内核：[558007.497475] NVRM：RmInitAdapter失败了！（0×23：0x56储存：468）

9月6日02:48:48 gpu-8-server-intesight内核：[558007.497489] NVRM：rm_init_adapter因设备承载次要编号0失败

9月6日02:48:50 gpu-8-server-intesight内核：[558008.878985] NVRM：request_irq（）失败（-22）

9月6日02:48:53 gpu-8-server-intesight内核：[558011.735642] NVRM：RmInitAdapter失败了！（0×23：0x56储存：468）

9月6日02:48:53 gpu-8-server-intesight内核：[558011.735658] NVRM：rm_init_adapter因设备承载次要编号0失败

9月6日02:48:54 gpu-8-server-intesight内核：[558013.108772] NVRM：request_irq（）失败（-22）

9月6日02:48:55 gpu-8-server-intesight内核：[558013.757168] BUG：无法在0000000132081000处理内核分页请求

9月6日02:48:55 gpu-8-server-intesight内核：[558013.757173] IP：[] kmem_cache_alloc + 0x77 / 0x1f0

9月6日02:48:55 gpu-8-server-intesight内核：[558013.757175] PGD 10357d8067 PUD 0

Answer 1

我们遇到过这个问题。据我所知，你有一个非常类似的设置与多个GPU和一个X99主板。我们设法通过在引导内核参数中设置pcie_aspm=off来缓解错误。我在您提供的nvidia错误报告日志中搜索“aspm”，您会注意到以下内容：

[0.167842] ACPI FADT声明系统不支持PCIe ASPM，因此禁用它

[0.278085] acpi PNP0A03：03：FADT表示不支持ASPM，使用BIOS配置

[0.282583] acpi PNP0A08：00：FADT表示不支持ASPM，使用BIOS配置

[2.795337] r8169 0000：0a：00.0：无法禁用ASPM;操作系统没有ASPM控件

我们的GPU服务器目前仍然存在一些问题，但这可能会有所帮助。

我最初在这个thread上发现了这个想法

更新：我们仍然得到偶尔的RmInitAdapter消息，但我们不再有任何稳定性问题。为了记录我们现在正在运行Nvidia的387.34驱动程序，我们有以下启动参数：

pcie_aspm=off rcutree.rcu_idle_gp_delay=1

作为旁注，我们还有一个基于X299主板的新型四GPU盒，我们也有类似的问题。

有关：

What does pcie_aspm do?

NVRM：RmInitAdapter失败：Xid：79，GPU从总线上掉了下来

问题描述投票：1回答：1

1个回答

最新问题

NVRM：RmInitAdapter失败：Xid：79，GPU从总线上掉了下来

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1