我在优化对两个稀疏矩阵执行矩阵矩阵乘法的代码时遇到问题。矩阵使用 3 个子数组存储,存储行索引、列索引和值。关于如何优化我的串行代码有什么建议吗?
我尝试过使用阻塞技术以及 openMP,但是由于输出数组的依赖性,openMP 无法有效工作。