sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

与SSE并行的前缀(累计)总和

我正在寻找有关如何与SSE进行并行前缀和的一些建议。我有兴趣在一系列整数,浮点数或双精度数上执行此操作。我想出了两个解决方案。一个特例和......

回答 1 投票 10

Mono中的SIMD还有什么发展吗?

我想知道自从5年(5年前)出现以来Mono.SIMD(或Mono内部的SIMD支持)是否有任何开发。我个人认为这是改善的一个重要步骤......

回答 2 投票 8

为什么SSE有128位负载功能?

我正在寻找其他人的代码,目前正试图找出为什么_mm_load_si128存在。基本上,我尝试替换_ra = _mm_load_si128(reinterpret_cast (&光盘-&...

回答 1 投票 13

SSE内在函数 - _mm_and_ps奇怪的行为

下面这段代码:__ m128 a = _mm_setr_ps(1,2,3,4); __m128 b = _mm_set1_ps(2); __m128 res = _mm_and_ps(a,b); cout << a [0] <<“”<< a [1] <<“”

回答 1 投票 2

英特尔C编译器使用带对齐内存的未对齐SIMD移动

我使用的是Haswell Core i7-4790K。当我使用icc -O3 -std = c99 -march = core-avx2 -g编译以下玩具示例时:#include #包括 #包括

回答 2 投票 3

使用_mm_load_pd时函数崩溃

我有以下功能:模板 void SSE_vectormult(T * A,T * B,int size){__ m128d a; __m128d b; __m128d c;双A2 [2],B2 [2],C [2]; const double * ...

回答 3 投票 1

用于SSE和AVX的SIMD数学库

我正在为SSE和AVX寻找SIMD数学库(最好是开源)。我的意思是,例如,如果我有一个带有8个浮点值的AVX寄存器v,我希望sin(v)返回所有八个值的sin ...

回答 2 投票 14

如何将浮点常量值移动到xmm寄存器中?

是将值移入xmm寄存器的唯一方法是首先将值移入整数寄存器,不知道它们被称为什么,然后进入xmm寄存器,例如mov [eax],(float)1000; ...

回答 1 投票 -1

对于在数组中找到零并切换标志+更新另一个数组的循环的SSE优化

一段C ++代码确定零的出现,并为每个检查的数字保留二进制标志变量。每次在...中遇到零时,标志的值在0和1之间切换。

回答 2 投票 3

SSE - _mm_extract_ps与直接访问之间不匹配

下面这段代码:__ m128 var1; float * a =(float *)malloc(50 * sizeof(float)); float * ptr = a; //用(int i = 0; i <50; i ++)*(a + i)= i的某些值初始化a; //打印那些......

回答 1 投票 0

使用Intel Intrinsics进行无符号短整数运算

我想使用Intel内在函数(16位无符号整数向量)进行一些操作,操作如下:从unsigned short int数组加载或设置。 Div和Mod ......

回答 1 投票 1

SSE错误 - 使用m128i_i32定义__m128i变量的字段

在以这种方式定义__m128i变量时:__ m128i a; a.m128i_i32 [0] = 65000;我收到以下错误:错误:请求'a'中的成员'm128i_i32',这是非类型'__m128i ...

回答 2 投票 2

SSE向量是“16字节对齐”是什么意思,我该如何确保它?

我现在正在使用向量和矩阵,有人建议我应该使用SSE而不是使用float数组。然而,在阅读C内在函数和...的定义时

回答 3 投票 0

SSE - 不存在的hardsub内在?

虽然可以通过内在函数爬行,但我注意到无处可见水平的addub / subadd intruction。它可以在过时的3DNow中使用!扩展然而它的用途......

回答 2 投票 2

是否有更直接的方法将float转换为int而不是添加0.5f并使用截断转换?

在使用浮点数据的C ++代码中,通常使用舍入从float转换为int。例如,一种用途是生成转换表。考虑一下......的片段

回答 2 投票 4

如何在编译时检测SSE / SSE2 / AVX / AVX2 / AVX-512 / AVX-128-FMA / KCVI的可用性?

我正在尝试优化一些矩阵计算,我想知道是否有可能在编译时检测SSE / SSE2 / AVX / AVX2 / AVX-512 / AVX-128-FMA / KCVI [1]是否由编译器?理想的......

回答 1 投票 45

为什么矢量化对于几乎相同的代码表现不同?

以下是执行相同操作的自由函数,但在第一种情况下,循环不是矢量化的,但在其他情况下它是。这是为什么? #包括 typedef std :: vector VEC; ...

回答 1 投票 13

将XMM寄存器推入堆栈

有没有办法将打包的双字整数从XMM寄存器推送到堆栈?然后在需要时弹出它?理想情况下,我正在寻找像PUSH或POP这样的东西...

回答 2 投票 12

使用SSE计算绝对值的最快方法

我知道3种方法,但据我所知,通常只使用前2种方法:使用andps或andnotps屏蔽掉符号位。优点:如果掩码已经在寄存器中,则一个快速指令,...

回答 1 投票 13

我可以将SIMD内在函数用于在云上运行的软件吗?

只考虑将某些软件迁移到云时必须完成的工作。该软件使用了很多从SSE3到AVX的SIMD内在函数(英特尔)。它在本地服务器上运行良好。我是 ...

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.