计算工作量分析显示不同计算管道的利用率。我知道在现代GPU中,整数和浮点管线是不同的硬件单元,可以并行执行。但是,不清楚哪个管道代表其他管道的哪个硬件单元。我也找不到在线有关管道的缩写和解释的任何文档。
我的问题是:
1)ADU,CBU,TEX,XU的全名是什么?它们如何映射到硬件?
2)哪些管线使用相同的硬件单元(例如FP16,FMA,FP64使用浮点单元)?
3)现代GPU中的翘曲调度程序可以每个周期调度2条指令(使用不同的流水线)。可以同时使用哪些管道(例如FMA-ALU,FMA-SFU,ALU-Tensor等)?
Volta(CC 7.0)和Turing(CC 7.5)SM由4个子分区(SMSP)组成。每个子分区包含
[包含其他几个分区,这些分区包含执行单元和由四个子分区共享的资源,包括
在Volta(CC7.0,7.2)和Turing(CC7.5)中,每个SM子分区每个周期可以发出1条指令。可以将指令发布到本地执行单元或SM共享执行单元。
Volta(CC 7.0)和Turing(CC 7.5)SM由4个子分区(SMSP)组成。每个子分区包含
[包含其他几个分区,这些分区包含执行单元和由4个子分区共享的资源,包括
在Volta(CC7.0,7.2)和Turing(CC7.5)中,每个SM子分区每个周期可以发出1条指令。可以将指令发布到本地执行单元或SM共享执行单元。