intrinsics 相关问题

在编译语言中使用内在函数来使用语言范围之外的特定CPU指令。

具有内在函数的前导零计算

我正在尝试优化嵌入式系统(FLAC解码,Windows CE,ARM 926 MCU)中的某些代码。默认实现使用一个宏和一个查找表:/ *计算... ...>

回答 1 投票 4

_mm_set1_ps和_mm_set_ps1有什么区别?

这些功能之间有什么区别吗?如果没有,为什么? __m128 __mm_set1_ps(浮点a)__m128 __mm_set_ps1(浮点a)英特尔Intrinsics Guide网站上的两个描述均相同。谢谢...

回答 1 投票 3

_ mm_set1_ps和_mm_set_ps1有什么区别?

功能之间有什么区别吗?如果没有,为什么? __m128 __mm_set1_ps(浮点a)__m128 __mm_set_ps1(浮点a)英特尔Intrinsics Guide网站上的两个描述均相同。谢谢。

回答 1 投票 2

我们如何对数组的先前单元使用SSE内部算法运算?

我有此代码,我尝试使用SSE2 Intrinsics运行。浮动* a,* b; __m128 * va,* vb;浮点数k0 = 0.5,k1 = 0.5,k2 = 0.5,k3 = 0.5,k5 = 0.5,k6 = 0.5,k7 = 0.5,k8 = 0.5;浮点数k4 = 5.0; int i,...

回答 1 投票 -1

使用SSE的矩阵向量和矩阵矩阵乘法

我需要编写矩阵向量和矩阵矩阵乘法函数,但是我无法将头围在SSE命令周围。矩阵和向量的维数始终是4的倍数。我管理过...

回答 1 投票 1

使用intel内在函数在内存中相等地加载双精度吗?

是否有像_mm256_load_pd这样的内在函数加载两倍的内存,它们在内存中的间距相等?基本上,我正在尝试加载矩阵的列向量而不是行向量。

回答 1 投票 0

如何获得__m256的高分

我有__m256或__m256i,我想参加更高的部分。给定__m256变量,我知道我可以使用_mm256_extractf128_ps(variable,1)来做到这一点,但对于低端部分:_mm256_extractf128_ps(tr3,0)...

回答 1 投票 1

SIMD减少4个向量而没有hadd

我正在尝试优化一些代码,并且处于一种状态,我有4个向量__m256d,我想将每个向量的总和存储在另一个__m256d中。所以基本上结果= [sum(a),sum(b),sum(c),...

回答 1 投票 2

用内在函数初始化__m128i常数的最快方法?

[当前,我有一个__m128i变量,我们将其称为X。我想将其与一个恒定的128bit值进行异或,然后将该值保存回X。因此,对于某些恒定的C,基本上是X ^ =C。我是...

回答 1 投票 0

用内在函数初始化__m128i的最快方法?

[当前,我有一个__m128i变量,我们将其称为X。我想将其与一个恒定的128bit值进行异或,然后将该值保存回X。因此,对于某些恒定的C,基本上是X ^ =C。我是...

回答 1 投票 0

__ mm256_movemask_epi8至uint64_t

有人可以向我解释为什么tr2和tr4显示不同的结果:auto test1 = _mm256_set1_epi8(-1); uint64_t tr2 = _mm256_movemask_epi8(test1); uint32_t tr3 = _mm256_movemask_epi8(test1); ...

回答 1 投票 0

如何在ARM64中获取CPU品牌信息?

在Windows X86中,可以使用cpuid固有函数查询CPU品牌。以下是代码示例:#include #include int main(void){int cpubrand [4 * 3]; ... ] >>

回答 2 投票 1

内置pcmpistri在gcc中不起作用

我正在尝试编写一个利用SCC4.2新指令并利用GCC内部函数的strcmp版本。这是我到目前为止的代码:#include #include ... ...>

回答 1 投票 1

有没有一种方法可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值?

是否可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值?例如,而不是像int32x2_t做a,b,c,d,e,f; ..........其他一些...

回答 1 投票 0

ln(x)对于AVX的实现,m256

是否有用于__m256类型,用于AVX的自然对数快速实现的源代码?有fmath,但仅适用于__m128

回答 1 投票 1

使用ARM Neon内部函数从64位访问32位

如何使用ARM Neon Intrinsics从64位带符号整数访问低32位或高32位?另外,我想将提取的数据分配给另一个32位变量。有可能吗?

回答 2 投票 0

使用SSE内在函数对x,y,z浮点数组进行矢量化处理,计算长度和差值

我正在尝试将一个循环转换为SSE内在函数。我似乎取得了相当不错的进步,这意味着我朝着正确的方向前进,但是我似乎已经做了一些...

回答 1 投票 0

使用SSE内在函数优化浮点数x,y,z数组以计算长度和差的循环

我正在尝试将一个循环转换为SSE内在函数。我似乎取得了相当不错的进步,这意味着我朝着正确的方向前进,但是我似乎已经做了一些...

回答 1 投票 0

使用AVX内在函数在__m512i中求和8位整数

AVX512为我们提供了将__mm512向量中的所有单元格求和的内在函数。但是,它们的某些对应项缺失:尚无_mm512_reduce_add_epi8。 _mm512_reduce_add_ps //水平...

回答 1 投票 0

读取小阵列的最快偏移量

为了提高速度,我想读取第9个寄存器中的值所引用的8个寄存器之一。我看到的最快的方法是使用3个条件跳转(检查第9个寄存器中的3位)。 ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.