使用tensorflow时出现Nvidia GPU错误

问题描述 投票:1回答:1

Tensorflow会话创建在GPU节点上失败,并出现以下错误:

2018-06-19 07:01:08.400165:E tensorflow / core / common_runtime / direct_session.cc:154]内部:为CUDA设备初始化StreamExecutor序号0:内部:调用cuDevicePrimaryCtxRetain失败:CUDA_ERROR_ECC_UNCORRECTABLE

以下是GPU信息

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.30                 Driver Version: 390.30                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 0000752C:00:00.0 Off |                    2 |
| N/A   39C    P8    25W / 149W |      0MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

请分享一些指针,以进一步调试。

PS:相同的程序在CPU节点上运行良好

tensorflow nvidia gpgpu
1个回答
0
投票

来自this其他Stackoverflow的讨论,

我认为您的GPU状态已损坏位,ECC或纠错代码无法纠正它。

根据讨论,重新启动计算机可能会有所帮助。

另一件事是在你的GPU信息中你看到Uncorr. ECC应该是N / A但在你的情况下,它显示2.所以我的建议是你重新启动计算机并在运行你的程序之前确认这个Uncorr. ECCN/A。这样您就可以确保您的程序不会产生此问题。

© www.soinside.com 2019 - 2024. All rights reserved.