我在 V100 和 H100 GPU 上运行 MAGMA
testing_dgemm
代码。通过 Nsight Systems,我发现 V100 上的代码不使用张量核心,但 H100 上的代码却使用张量核心。
V100结果:
H100结果:
根据NVIDIA官网,该张量核心已用于Volta GPU。
NVIDIA Inside Volta 博客似乎没有提及 FP64 TC 性能。
v100 GPU 的 TensorCore 单元中没有 FP64(双精度)路径。
Ampere A100 第三代 TensorCore 中引入了该路径/功能。
所以在进行FP64运算时,V100一般不会使用TensorCore。
从这里:
NVIDIA A100 推出双精度张量核心 ...
(强调)