sse 相关问题

SSE（Streaming SIMD Extensions）是许多类似命名的x86指令集向量扩展中的第一个。此时，SSE通常更常用于x86向量指令，而不是没有SSE2，SSE3等的SSE引用。

所以我有一组具有混合值的数据用于打包目的，如下所示： {(Point_x, Point_y, Point_z, 标量),(Point_x, Point_y, Point_z, 标量),(Point_x, Point_y, Point_z, 标量),...}...

c++ simd sse avx

回答 1 投票 0

改进SSE（SSSE3）YUV到RGB编码

我正在寻找优化我为将 YUV 转换为 RGB（平面和打包 YUV 函数）而编写的一些 SSE 代码。我现在正在使用SSSE3，但是如果以后的SSE版本有有用的功能...

optimization assembly rgb sse yuv

回答 4 投票 0

打印 __m128i 变量

我正在尝试学习使用内在函数进行编码，下面是一个执行加法的代码使用的编译器：icc #包括 #包括 int main() { __m128i a =

c assembly sse simd intrinsics

回答 4 投票 0

std::replace 实现可以对传递的数组进行冗余写入吗？

std::replace 实现可以使用矢量化进行优化（通过专门化库实现或编译器）。矢量化实现将比较并替换几个元素...

c++ language-lawyer vectorization sse avx

回答 1 投票 0

使用 SSE 和 NEON 进行外环矢量化

我想在 ARM NEON 和 SSE 上对以下循环进行矢量化：对于 (int i = 0; i < n; ++i) { b[i][0] = 0.0; for (int j = 1; j < n; ++j) { b[i][j] = b[i][j - 1] + a[i][j]; } } This

vectorization simd sse neon

回答 2 投票 0

用SSE指令打点产品性能：DPPS值得使用吗？

通过 SSE4.1 dpps 或使用一系列乘法来计算两个短（4 元素）向量的点积是否更快 /shufps/addps 来自 SSE 1 的指令？（对于大向量，c...

assembly x86 simd sse dot-product

回答 1 投票 0

MSVC 如何避免混合 SSE 和 AVX？

尽管混合 SSE 和 AVX 编码会带来臭名昭著的惩罚（请参阅为什么在 Skylake 上没有 VZEROUPPER 的情况下这个 SSE 代码会慢 6 倍？），但可能需要混合 128 位和 256 位操作。

c++ visual-c++ sse avx

回答 1 投票 0

OllyDbg 无法正确解释 SSE2 指令和操作数

注意：使用OllyDbg v1.1 我正在尝试对程序中的子例程进行逆向工程，该子例程可能采用某种技术来挫败基本“IsDebuggerPresent”之外的过程。我哈...

assembly x86 sse disassembly ollydbg

回答 2 投票 0

装配中的灰度滤镜不适用于较小的图像

我在汇编中编写的灰度滤镜有问题 - 较大图像上的结果很好，但是当我尝试在较小图像（例如 5x1 位图）上测试它时，而不是

assembly image-processing x86 simd sse

回答 1 投票 0

如何使用SVML指令[重复]

我正在尝试使用SIMD计算指数函数。我发现了这个函数：https://software.intel.com/sites/landingpage/IntrinsicsGuide/#text=_mm_exp_ps&expand=2136 我已经

c++ x86 sse simd

回答 1 投票 0

C++ 错误：‘_mm_sin_ps’ 未在此范围内声明

我正在尝试对将函数应用于数组的不同方法进行基准测试。为什么是 https://software.intel.com/sites/landingpage/IntrinsicsGuide/#expand=3260,2124,4779,4779&cats=Trigonometry&t...

c++ optimization sse simd intrinsics

回答 4 投票 0

所有支持AVX2的CPU都支持SSE4.2和AVX吗？

我计划实现SIMD扩展的运行时检测。是不是如果我发现处理器支持AVX2，就一定也支持SSE4.2和AVX？

sse simd avx avx2

回答 3 投票 0

SSE指令加载零扩展字节？

假设我有一个指向 RDI 中一堆 uint8_t 的指针，我想将 4 个 uint8_t 加载到 XMM0 中，并使用 SIMD 指令将其与 XMM1 相乘，其中我存储了 4 个浮点值。我怎么能...

c assembly x86 x86-64 sse

回答 1 投票 0

使用-O3时确定段错误的原因？

当使用 -O3 和 GCC 4.8/4.9/5.1 编译程序时，我无法确定段错误的原因。对于 GCC 4.9.x，我在 Cygwin、Debian 8 (x64) 和 Fedora 21 (x64) 上看到过它。其他人有

c++ gdb sse gcc4.9

回答 1 投票 0

使用 simd 查找字符的第一个实例

我正在尝试使用 simd（AVX2 或更早版本）查找字符的第一个实例，在本例中为 '"'。我想使用 _mm256_cmpeq_epi8，但随后我需要一种快速的方法来查找是否有任何结果

x86 sse simd avx avx2

回答 1 投票 0

如何在.NET 中将 Vector128<float> 转换/重新解释为 Vector128<int>？

我正在寻找无操作 x86 内在 _mm_castps_si128 的 .NET 3.0+ 等效项。如何快速将 Vector128 转换为 Vector128 以便位模式保持不变。

.net simd sse intrinsics

回答 2 投票 0

如何使用 Node.js Express 传输 AI.JSX 响应

我正在使用 Node.js 和 Express 编写一个小型 REST API，并将 AI.JSX 与 OpenAI API 结合使用。 AI.JSX 文档提供了如何使用 SSE 在 N...的上下文中流式传输响应的示例。

node.js express jsx sse

回答 1 投票 0

x87 相对于 SSE 的优势

我知道x87具有更高的内部精度，这可能是人们看到的它与SSE操作之间最大的区别。但我想知道，使用 x87 还有其他好处吗...

x86 x86-64 sse fpu x87

回答 6 投票 0

如何使用 SSE 对向量矩阵乘积进行向量化？

我在C++中有这个函数无效例程2（浮动阿尔法，浮动贝塔）{ 无符号整型 i, j; 对于 (i = 0; i < N; i++) for (j = 0; j < N; j++) w[i] = w[i] - beta + alph...

c++ matrix-multiplication sse dot-product

回答 1 投票 0

如何使用 SSE 正确向量化向量矩阵乘积？

我在C++中有这个函数无效例程2（浮动阿尔法，浮动贝塔）{ 无符号整型 i, j; 对于 (i = 0; i < N; i++) for (j = 0; j < N; j++) w[i] = w[i] - beta + alph...

c++ matrix-multiplication sse dot-product

回答 1 投票 0

sse 相关问题

最新问题