sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

加速浮点数5x5矩阵*使用SSE的向量乘法

我需要每秒进行240000次矩阵向量乘法。矩阵为5x5,并且始终相同,而向量在每次迭代时都会变化。数据类型为float。我在想...

回答 8 投票 12

* _ dpbusd_epi32或* _maddubs_epi16在ARM上是否等效?

我希望将一些x86内在代码移植到ARM,但我一直在努力寻找正确的资源。在开发x86代码时,我主要使用该网站作为文档:https://software.intel.com / ...

回答 1 投票 1

NEON中的_mm_hadd_ps等于什么?

我正在尝试将以下代码从SSE转换为适用于Apple的64位iOS设备的NEON:void Matrix :: TransformPoint(const float vec [4],const Matrix&matTrans,float out [4]){...

回答 2 投票 1

_ mm_set_epi8的等效于汇编,除最后一个参数外,所有参数都为零

我正在编写一个用于通过大学课程的程序,该程序应该比较C ++和SIMD函数以及汇编函数的效率。现在,我设法做得很好,...

回答 1 投票 2

等效于_mm_set_epi8的带参数的参数

我正在编写一个程序以通过大学的科目考试,该程序应比较C ++和SIMD函数与汇编函数的效率。现在,我设法做得很好,...

回答 1 投票 1

X86:如何将xmm0的下半部分设置为0,而又不影响上半部分?

我使用xmm0具有128位的系统。我想将[63 ... 0]设置为零,而不会影响[127 ... 64]。我使用:MOV RAX,0xFFFFFFFFFFFFFFFF MOVQ xmm2,RAX PSHUFD xmm2,xmm2、0b00001111 PAND xmm1,xmm2 ...

回答 1 投票 3

用于Quadwords的Intel 64 / IA32压缩水平添加?

我正在为Quadwords寻找类似PHADDD的说明。 PHADDQ不存在,是否有这样的指令?

回答 1 投票 0

在AVX / SSE中是否有可能获得多个正弦?

我正在尝试编写C ++程序,该程序将启动我在x64汇编器中编写的功能。我想稍微加快速度(并使用CPU功能),所以我选择使用向量运算。 ...

回答 3 投票 2

如何使用SSE将__m128i寄存器乘以浮点因子?

我在将两个寄存器相乘时遇到问题(或者只是将寄存器乘以浮点常量)。一个寄存器是__m128i类型,包含一个从16个像素开始的RGBA像素颜色通道(具有16个像素的数组...

回答 1 投票 0

for循环的MMX SSE扩展名

我有GCC 9.2编译器。如果我使用MMX或SSE / AVX扩展名,则将使您的代码并行运行,因此速度会更快。如何告诉编译器使用此指令,我有一个我想要的代码段...

回答 1 投票 0

C#-如何使用向量SSE操作将图像像素数据的字节数组转换为灰度

我在将存储在byte []数组中的图像数据转换为灰度时遇到问题。我想使用矢量SIMD操作,因为将来需要编写ASM和C ++ DLL文件来测量操作...

回答 1 投票 0

[使用矢量化c ++的矩阵乘法

我正在尝试编写C ++代码以使用SIMD进行矩阵乘法,但是结果是错误的,这是我的代码void mat_sse(DATA m1 [] [SIZE],DATA m2 [] [SIZE],DATA mout [] [SIZE]){DATA prod ...

回答 2 投票 0

SIMD延迟吞吐量

关于大多数说明,在《 Intel Intrisics指南》上,它还具有延迟和吞吐量值。示例:__m128i _mm_min_epi32性能架构延迟吞吐量Haswell 1 ...

回答 2 投票 9

msvc 2017 x64寄存器保留

根据https://docs.microsoft.com/ru-ru/cpp/build/x64-software-conventions?view=vs-2017-xmm6:xmm15是非易失性的。但是,如果我不保留xmm6,xmm7,我的程序也不会崩溃。我不打...

回答 1 投票 -1

SSE矩阵-矩阵乘法

我在用C中的SSE进行矩阵矩阵乘法时遇到了麻烦。这就是我到目前为止所得到的:#define N 1000 void matmulSSE(int mat1 [N] [N],int mat2 [N] [N], int result [N] [N]){int i,j,k; ...

回答 2 投票 1

SSE移位指令将带有_mm_set1_epi32()的向量归零,用于计数向量?

这里是情况:m3 = _mm_srli_epi32(m2,23);完全符合预期,m3 = _mm_srl_epi32(m2,shift);但是(将偏移初始化为__m128i shift = _mm_set1_epi32(23);)得出零。 ...

回答 1 投票 1

SSE移位指令

这里是情况:m3 = _mm_srli_epi32(m2,23);完全符合预期,m3 = _mm_srl_epi32(m2,shift);但是(将偏移初始化为__m128i shift = _mm_set1_epi32(23);)得出零。我是...

回答 1 投票 0

使用SIMD计算基于另一个矢量位值的值乘积

我有两个向量。一个大小为N的双精度向量a和大小为ceil(N / 8)的无符号字符b的向量。目的是计算a的某些值的乘积。 b将通过以下方式读取...

回答 1 投票 2

如何指示编译器为__m128生成未对齐的载荷

我有一些适用于__m128值的代码。我在这些值上使用x86-64 SSE内部函数,并且发现如果这些值在内存中未对齐,则会崩溃。这是由于我的编译器(...

回答 4 投票 9

用于预乘ARGB的SSE alpha混合

我正在尝试编写启用SSE的alpha合成器,这就是我想出的。首先,该代码用于混合每个4个像素的两个向量:// alpha混合两个128位(16字节)的SSE向量...

回答 1 投票 4

© www.soinside.com 2019 - 2024. All rights reserved.