sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

在 __mm128 寄存器中设置最后一个值

所以我有一组具有混合值的数据用于打包目的,如下所示: {(Point_x, Point_y, Point_z, 标量),(Point_x, Point_y, Point_z, 标量),(Point_x, Point_y, Point_z, 标量),...}...

回答 1 投票 0

改进SSE(SSSE3)YUV到RGB编码

我正在寻找优化我为将 YUV 转换为 RGB(平面和打包 YUV 函数)而编写的一些 SSE 代码。 我现在正在使用SSSE3,但是如果以后的SSE版本有有用的功能...

回答 4 投票 0

打印 __m128i 变量

我正在尝试学习使用内在函数进行编码,下面是一个执行加法的代码 使用的编译器:icc #包括 #包括 int main() { __m128i a =

回答 4 投票 0

std::replace 实现可以对传递的数组进行冗余写入吗?

std::replace 实现可以使用矢量化进行优化(通过专门化库实现或编译器)。 矢量化实现将比较并替换几个元素...

回答 1 投票 0

使用 SSE 和 NEON 进行外环矢量化

我想在 ARM NEON 和 SSE 上对以下循环进行矢量化: 对于 (int i = 0; i < n; ++i) { b[i][0] = 0.0; for (int j = 1; j < n; ++j) { b[i][j] = b[i][j - 1] + a[i][j]; } } This

回答 2 投票 0

用SSE指令打点产品性能:DPPS值得使用吗?

通过 SSE4.1 dpps 或使用一系列乘法来计算两个短(4 元素)向量的点积是否更快 /shufps/addps 来自 SSE 1 的指令? (对于大向量,c...

回答 1 投票 0

MSVC 如何避免混合 SSE 和 AVX?

尽管混合 SSE 和 AVX 编码会带来臭名昭著的惩罚(请参阅为什么在 Skylake 上没有 VZEROUPPER 的情况下这个 SSE 代码会慢 6 倍?),但可能需要混合 128 位和 256 位操作。

回答 1 投票 0

OllyDbg 无法正确解释 SSE2 指令和操作数

注意:使用OllyDbg v1.1 我正在尝试对程序中的子例程进行逆向工程,该子例程可能采用某种技术来挫败基本“IsDebuggerPresent”之外的过程。 我哈...

回答 2 投票 0

装配中的灰度滤镜不适用于较小的图像

我在汇编中编写的灰度滤镜有问题 - 较大图像上的结果很好,但是当我尝试在较小图像(例如 5x1 位图)上测试它时,而不是

回答 1 投票 0

如何使用SVML指令[重复]

我正在尝试使用SIMD计算指数函数。我发现了这个函数:https://software.intel.com/sites/landingpage/IntrinsicsGuide/#text=_mm_exp_ps&expand=2136 我已经

回答 1 投票 0

C++ 错误:‘_mm_sin_ps’ 未在此范围内声明

我正在尝试对将函数应用于数组的不同方法进行基准测试。 为什么是 https://software.intel.com/sites/landingpage/IntrinsicsGuide/#expand=3260,2124,4779,4779&cats=Trigonometry&t...

回答 4 投票 0

所有支持AVX2的CPU都支持SSE4.2和AVX吗?

我计划实现SIMD扩展的运行时检测。是不是如果我发现处理器支持AVX2,就一定也支持SSE4.2和AVX?

回答 3 投票 0

SSE指令加载零扩展字节?

假设我有一个指向 RDI 中一堆 uint8_t 的指针,我想将 4 个 uint8_t 加载到 XMM0 中,并使用 SIMD 指令将其与 XMM1 相乘,其中我存储了 4 个浮点值。 我怎么能...

回答 1 投票 0

使用-O3时确定段错误的原因?

当使用 -O3 和 GCC 4.8/4.9/5.1 编译程序时,我无法确定段错误的原因。对于 GCC 4.9.x,我在 Cygwin、Debian 8 (x64) 和 Fedora 21 (x64) 上看到过它。其他人有

回答 1 投票 0

使用 simd 查找字符的第一个实例

我正在尝试使用 simd(AVX2 或更早版本)查找字符的第一个实例,在本例中为 '"'。我想使用 _mm256_cmpeq_epi8,但随后我需要一种快速的方法来查找是否有任何结果

回答 1 投票 0

如何在.NET 中将 Vector128<float> 转换/重新解释为 Vector128<int>?

我正在寻找无操作 x86 内在 _mm_castps_si128 的 .NET 3.0+ 等效项。如何快速将 Vector128 转换为 Vector128 以便位模式保持不变。

回答 2 投票 0

如何使用 Node.js Express 传输 AI.JSX 响应

我正在使用 Node.js 和 Express 编写一个小型 REST API,并将 AI.JSX 与 OpenAI API 结合使用。 AI.JSX 文档提供了如何使用 SSE 在 N...的上下文中流式传输响应的示例。

回答 1 投票 0

x87 相对于 SSE 的优势

我知道x87具有更高的内部精度,这可能是人们看到的它与SSE操作之间最大的区别。但我想知道,使用 x87 还有其他好处吗...

回答 6 投票 0

如何使用 SSE 对向量矩阵乘积进行向量化?

我在C++中有这个函数 无效例程2(浮动阿尔法,浮动贝塔){ 无符号整型 i, j; 对于 (i = 0; i < N; i++) for (j = 0; j < N; j++) w[i] = w[i] - beta + alph...

回答 1 投票 0

如何使用 SSE 正确向量化向量矩阵乘积?

我在C++中有这个函数 无效例程2(浮动阿尔法,浮动贝塔){ 无符号整型 i, j; 对于 (i = 0; i < N; i++) for (j = 0; j < N; j++) w[i] = w[i] - beta + alph...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.