是否有像_mm256_load_pd
这样的内在函数加载在内存中相等间距的double?
基本上,我正在尝试加载矩阵的列向量而不是行向量。
想到这样的内在函数实际上没有任何意义。加载内在函数用于将大量数据直接从内存中的一个位置放到可以直接加载到寄存器中的数据类型中。您无法执行此操作,因为要处理的数据不连续。
最简单的事情就是:
__m256d data;
for(int i = 0; i < 4; i++)
{
data[i] = myarray[/* some index derived from i*/]
}