sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。



将数据从内存中移动(可以是任意长度)到XMM

我对程序集(NASM)知之甚少,我想使用SSE4.2执行字符串操作(是否存在子字符串)。因此,我了解了PCMPESTRI,PCMPISTRM的工作原理。我被卡在中间,即数据...

回答 1 投票 0

使用AVX CPU指令:没有“ / arch:AVX”的情况下性能较差]]

我的C ++代码使用SSE,现在我想对其进行改进以支持AVX。因此,我检测到AVX何时可用,并调用使用AVX命令的函数。我使用Win7 SP1 + VS2010 SP1和一个...

回答 2 投票 49

使用未对齐的缓冲区矢量化:使用VMASKMOVPS:从未对齐计数生成掩码吗?还是根本不使用该insn

用于x86-64的带有-O3 -mavx -mtune = haswell的gcc 5.3使代码出奇的庞大,无法处理代码的可能未对齐的输入,例如://编译器输入的便捷简单示例//我不是...

回答 2 投票 11

为什么AVX与SSE2相比不能进一步提高性能?

我是SSE2和AVX领域的新手。我编写以下代码来测试SSE2和AVX的性能。 #include #include #include #include ]]

回答 2 投票 0

“ pcmpeqb”的等待时间-内存与xmm寄存器的关系

我有这2个选项:选项1:循环:... movdqu xmm0,[rax] pcmpeqb xmm0,[.zero_table] ... ...对齐16 .zero_table:DQ 0,0选项2:pxor xmm1, xmm1循环:... movdqu ...

回答 1 投票 0

x86-64组件XMM1寄存器丢失其值

所以我正在处理这种汇编代码片段,但遇到一个奇怪的问题:XMM1寄存器在执行过程中似乎失去了它的值,即使我不认为我使用了任何...

回答 1 投票 2

x86-64从堆栈段错误中存储和删除浮点值

因此,我认为我应该使用简单的辅助函数来在堆栈和XMM寄存器之间移动数据,但是我再次遇到了段错误。应该如何正确地做到这一点?下面是我当前的代码,......>

回答 1 投票 0

Ubuntu-如何确定CPU应用程序当前是否正在使用AVX或SSE?

我目前在许多具有GPU的服务器上运行BOINC。这些服务器同时运行GPU和CPU BOINC应用程序。由于AVX和SSE在CPU应用程序中使用时会降低CPU频率,因此我必须是...

回答 2 投票 -1

现代编译器如何使用mmx / 3dnow / sse指令?

我一直在阅读x86指令集扩展,它们似乎仅在某些非常特定的情况下才有用(例如,SSE3中的HADDPD-(Horizo ntal-Add-Packed-Double)。这些需要一定的...

回答 5 投票 20

使用SSE内在函数对x,y,z浮点数组进行矢量化处理,计算长度和差值

我正在尝试将一个循环转换为SSE内在函数。我似乎取得了相当不错的进步,这意味着我朝着正确的方向前进,但是我似乎已经做了一些...

回答 1 投票 0

使用SSE内在函数优化浮点数x,y,z数组以计算长度和差的循环

我正在尝试将一个循环转换为SSE内在函数。我似乎取得了相当不错的进步,这意味着我朝着正确的方向前进,但是我似乎已经做了一些...

回答 1 投票 0

如何在Visual Studio的内联汇编中获取变量的地址

我正在Visual Studio环境中学习内联汇编程序。因此,我正在实现一个简单的点积函数,但似乎无法找到返回浮点结果的正确方法。浮点(vec3&a,...

回答 1 投票 0

-msse,-msse2,-mssse3,-msse4 rtc ..的cflgs sse选项之间有什么区别?以及如何确定?

对于GCC CFLAGS选项:-msse,-msse2,-mssse3,-msse4,-msse4.1,-msse4.2。它们是专有用途还是可以一起使用?我的理解是选择要设置的内容...

回答 1 投票 18

为什么数组大小增加时性能会增加?

我想学习SIMD编程。现在,我的代码中有了一些有趣的时刻。我只想衡量代码的工作时间。我尝试对具有特定大小的数组应用一些基本函数。 ...

回答 1 投票 1

有没有一种方法可以用gcc自动生成MMX指令(不是SSE)

看来gcc会很乐意自动将简单的示例向量化,并发出SSE指令。有什么方法只能发出MMX指令吗?例如,如果我在Godbolt上尝试以下示例:int ...

回答 1 投票 2

仍然得到“您的CPU支持该TensorFlow二进制文件未编译为使用的指令:”,同时使用-march = native

我已经尝试编译Tensorflow 2.0,以获得诸如avx之类的额外cpu指令的好处,但无济于事。我已经阅读了如何使用SSE4.2和AVX指令编译Tensorflow?但我是...

回答 1 投票 1

是否有simd指令/本征/内建元素的部分移位?

一个最小的示例会更有益:说我有一个排序的8个整数= {10,20,30,40,50,60,70,80}(我的用例是排序的整数,但是我不确定信息很有价值...

回答 1 投票 0

MMX和XMM寄存器之间的区别?

我目前正在学习Intel x86处理器上的汇编编程。有人可以告诉我,MMX和XMM寄存器有什么区别?我对......>

回答 1 投票 13

© www.soinside.com 2019 - 2024. All rights reserved.