Tensorflow会话创建在GPU节点上失败,并出现以下错误:
2018-06-19 07:01:08.400165:E tensorflow / core / common_runtime / direct_session.cc:154]内部:为CUDA设备初始化StreamExecutor序号0:内部:调用cuDevicePrimaryCtxRetain失败:CUDA_ERROR_ECC_UNCORRECTABLE
以下是GPU信息
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.30 Driver Version: 390.30 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla K80 Off | 0000752C:00:00.0 Off | 2 |
| N/A 39C P8 25W / 149W | 0MiB / 11441MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
请分享一些指针,以进一步调试。
PS:相同的程序在CPU节点上运行良好
来自this其他Stackoverflow
的讨论,
我认为您的GPU状态已损坏位,ECC或纠错代码无法纠正它。
根据讨论,重新启动计算机可能会有所帮助。
另一件事是在你的GPU信息中你看到Uncorr. ECC
应该是N / A但在你的情况下,它显示2.所以我的建议是你重新启动计算机并在运行你的程序之前确认这个Uncorr. ECC
为N/A
。这样您就可以确保您的程序不会产生此问题。