我在本地 arm 集群上使用 llvm v15.0.7 进行了实验,数据类型为 int、float、long、double 的矩阵乘法用于矩阵大小 5000。llvm 的执行时间比 gcc v12.2 多 100 倍。 llvm性能低下的原因是什么???
对于 int 数据类型 gcc 需要 21 秒,而我发现 llvm 对于 5000 矩阵大小需要 4046 秒