原始输入激活通过im2col进行内核转换,以改善内存访问模式。但是,当我们将原始矩阵转换为im2col矩阵时,也将访问相同的原始内存模式。那么,为什么im2col操作本身并不慢?
产生im2col的主要原因是输入和内核可以表示为两个大矩阵,而卷积可以在单个矩阵乘法中完成。因为矩阵乘法可以是并行化很好。
只是内存访问不是问题,正如您所说的,im2col必须以简单的卷积操作相同的方式访问原始张量。