我试图了解GPU的体系结构以及我们如何评估GPU上程序性能的方法。我知道该应用程序可以是:
[Memory-bound:性能受内存限制带宽。处理器的核心经常处于空闲状态,因为内存无法足够快地提供数据
下图显示了每个微体系结构的FLOPS速率,峰值内存带宽和所需的计算与内存之比,用(OP / B)标记。
我也有一个如何计算此OP / B指标的示例。示例:以下是用于应用矩阵矩阵乘法的CUDA代码的一部分
for(unsigned int i = 0; i < N; ++i) { sum += A[row*N + i]*B[i*N + col]; }
以及用于此矩阵矩阵乘法的OP / B的计算方法如下:
并且如果我们想利用这个:
因此,如果我清楚地理解了这一点,我将遇到以下问题:
我试图了解GPU的体系结构以及我们如何评估GPU上程序性能的方法。我知道该应用程序可以是:计算范围:性能受FLOPS限制...
通常情况下,OP / B越大越好?