sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

使用simd在双精度数组中查找nan

[这个问题非常类似于:用于浮点相等比较的SIMD指令(NaN == NaN),尽管该问题集中在128位向量上,并要求识别+ ...

回答 1 投票 1

使用SSE加载非连续浮点数

是否有一条Intel SSE指令可以从(非连续的)均匀间隔的内存地址加载浮点数?例如,给定一个数组A = {0,1,2,3 .... n},我想加载到128位中...

回答 1 投票 1

我如何有效地计算将单位立方体映射到其自身的反射和旋转?

对于基于八叉树的稀疏体素八叉树渲染器,我希望能够旋转并镜像八叉树的各个节点。虽然它实际上不是八叉树,但由于节点被共享并被...

回答 1 投票 2

使用SSE的自然指数函数的最快实现

我正在寻找在SSE元素上运行的自然指数函数的近似值。即-__m128 exp(__m128 x)。我有一个快速的实现,但是在...

回答 4 投票 14

loadu / lddqu和赋值运算符有什么区别?

我正在使用SIMD向量进行一些计算,并对它们的区别感到好奇,如下所示。 __m128i vector2 = vector1; __m128i vector2 = _mm_loadu_si128(&vector1);所以,什么是...

回答 1 投票 0

我对元素级sqrt的SSE / AVX优化没有提升,为什么

我不熟悉SIMD优化,试图为一维浮点数组计算每个元素的sqrt值。系统:Windows 10编译器:Visual Studio 2017 CPU:英特尔酷睿i5-8500以下代码为...

回答 1 投票 1

当我们考虑将DAZ标志用于SSE浮点时,“反常输入”在装配中到底意味着什么

我已经阅读了这篇文章,并且做非正规标记(如非正规标记)是对零达兹影响的比较,我了解FTZ和DAZ标记之间的用法和区别。 DAZ适用于输入,FTZ ...

回答 1 投票 2

我如何向量化data_i16 [0至15]?

我在Intel Intrinsic网站上,我不知道我想要哪种指令组合。我想做的是result = high_table [i8 >> 4]&low_table [i8&15]其中两个表...

回答 1 投票 2


添加sse时结果不正确? [重复]

我正在尝试添加两个uint8_t *并将结果保存到其他uint8_t *中,但是,当我运行代码时,无论进位如何,我都会得到错误的结果。这是我的加法函数的代码片段:...

回答 1 投票 -1

二进位,改变位

欢迎计算机科学家,问题:我有一系列由7 6 5 4 3 2 1 0组成的索引,我想按以下方式处理它们:7 6 5 4 3 2 1 0 = 7 6 5 4 3 2 1 0 _____ | | | | ...

回答 2 投票 0

_mm_set1_ps和_mm_set_ps1有什么区别?

这些功能之间有什么区别吗?如果没有,为什么? __m128 __mm_set1_ps(浮点a)__m128 __mm_set_ps1(浮点a)英特尔Intrinsics Guide网站上的两个描述均相同。谢谢...

回答 1 投票 3

_ mm_set1_ps和_mm_set_ps1有什么区别?

功能之间有什么区别吗?如果没有,为什么? __m128 __mm_set1_ps(浮点a)__m128 __mm_set_ps1(浮点a)英特尔Intrinsics Guide网站上的两个描述均相同。谢谢。

回答 1 投票 2

将XMM寄存器设置为重复字节模式(广播一个恒定字节)

[我知道我们可以执行以下操作将字符移动到xmm寄存器:movaps xmm1,xword [.__ 0x20]对齐16 .__ 0x20 db 0x20,0x20,0x20,0x20,0x20,0x20,0x20,0x20,0x20 ,0x20,0x20,0x20,0x20,...

回答 1 投票 0

sse2将字符移动到xmm,并重复到结尾

我知道我们可以执行以下操作将字符移动到xmm寄存器:movaps xmm1,xword [.__ 0x20]对齐16 .__ 0x20 db 0x20,0x20,0x20,0x20,0x20,0x20,0x20,0x20,0x20 ,0x20,0x20,0x20,0x20,...

回答 1 投票 0

我们如何对数组的先前单元使用SSE内部算法运算?

我有此代码,我尝试使用SSE2 Intrinsics运行。浮动* a,* b; __m128 * va,* vb;浮点数k0 = 0.5,k1 = 0.5,k2 = 0.5,k3 = 0.5,k5 = 0.5,k6 = 0.5,k7 = 0.5,k8 = 0.5;浮点数k4 = 5.0; int i,...

回答 1 投票 -1

使用SSE的矩阵向量和矩阵矩阵乘法

我需要编写矩阵向量和矩阵矩阵乘法函数,但是我无法将头围在SSE命令周围。矩阵和向量的维数始终是4的倍数。我管理过...

回答 1 投票 1

我们可以在堆内存上使用非时间mov指令吗?

在Agner Fog的“使用汇编语言优化子例程-11.8高速缓存控制指令中,”他说:“当在回写中发生高速缓存未命中时,内存写比读取要昂贵。] >>

回答 1 投票 1

用内在函数初始化__m128i常数的最快方法?

[当前,我有一个__m128i变量,我们将其称为X。我想将其与一个恒定的128bit值进行异或,然后将该值保存回X。因此,对于某些恒定的C,基本上是X ^ =C。我是...

回答 1 投票 0

用内在函数初始化__m128i的最快方法?

[当前,我有一个__m128i变量,我们将其称为X。我想将其与一个恒定的128bit值进行异或,然后将该值保存回X。因此,对于某些恒定的C,基本上是X ^ =C。我是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.