sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

为什么使用 SSE 对向量矩阵乘积进行向量化结果不正确?

我在C++中有这个函数 无效例程2(浮动阿尔法,浮动贝塔){ 无符号整型 i, j; 对于 (i = 0; i < N; i++) for (j = 0; j < N; j++) w[i] = w[i] - beta + alph...

回答 1 投票 0

为什么用SSE(向量化)重写的C++代码的结果不同?

我在C++中有这个函数 无效例程2(浮动阿尔法,浮动贝塔){ 无符号整型 i, j; 对于 (i = 0; i < N; i++) for (j = 0; j < N; j++) w[i] = w[i] - beta + alph...

回答 1 投票 0

对于 SIMD 循环处理的数据太窄?

处理一行数据的剩余部分太小而无法填充寄存器的最佳方法是什么? 考虑处理 32 位像素数据的 AVX512 循环: fnAVX512(n像素) { 而(n像素...

回答 1 投票 0

如何使用 SSE/SSE2/AVX/... 对 3、5、7、9 个输入进行有效的按位多数投票?

我有几个(例如 3、5、7 或 9 个)大小相同的大数据块(例如 100KB-100MB),并且想要进行按位多数投票,以获得每个数据块中最常用的值乙...

回答 1 投票 0

使用 SSE 进行打包 16 元素混合的最佳方法

我想使用SSE实现以下功能。它将 a 中的元素与 b 中的打包元素混合在一起,其中元素仅在使用时才出现。 无效的packedBlend16(uint8_t掩码,

回答 1 投票 0

SSE:循环计数器

我正在将用户“J. M. ain't a mathematician”的 Mathematica 源代码转换为 C++,并且还支持 SIMD(SSE2 -->)。到目前为止我已经完成了 C++ 代码。这是 Godbolt 上的正弦版本...

回答 1 投票 0

尝试使用 x86 asm SSSE3 将 16 位大尾数转换为小尾数

我已经做arm asm有一段时间了,并尝试使用x86 asm SSSE3优化简单循环。我找不到将大端转换为小端的方法。 ARM NEON 有一条向量指令...

回答 1 投票 0

使用 Rust SSE 内在函数进行浮点乘法没有加速

我正在尝试使用 Rust 中的内在函数进行实验,其中我制作了一个大的浮点数向量,然后记录将它们全部乘以一个常数所需的时间。接下来我用 SSE intrin 尝试同样的事情...

回答 1 投票 0

x86 AVX 中有聚合操作吗?

我正在尝试编写一个简单的游戏,我需要研究一些用于向量运算的x86汇编。使用xmm作为4压缩单精度浮点,是否有聚合运算?例如: “……

回答 1 投票 0

随机掩码不适用于内在随机播放

我试图随机生成一个掩码(首先用0到15的值填充数组,然后对其进行洗牌),然后将其用作_mm_shuffle_epi8指令的参数。 __m128i

回答 1 投票 0

使用 simd 指令时的堆栈对齐

在我正在读的关于汇编的书中,我们被告知对于我们编写的任何函数,如果它是一个分支函数并且将调用其他函数,它必须保持堆栈对齐。这样做是为了 SIMD

回答 1 投票 0

我如何使用 wai 和 http-client 创建一个可以流服务器发送事件的代理?

看起来wai的responseStream应该允许流式传输服务器发送的事件,但是当我这样做时 导入合格的 Network.HTTP.Client 作为 H 进口合格网.围...

回答 1 投票 0

在现有浮点数组上使用 SIMD 内在函数的安全高效方法

我正在学习 SSE 和 AVX,以进一步提高代码中某些计算的性能。 然而,我遇到了多种不同的方法来在 exis 上使用 SSE 指令......

回答 1 投票 0

是否有像 scatter 这样但在寄存器之间的 SIMD 内在函数?

据我所知,如果你想做的话,有_mm_shuffle_epi8 dst[i] = a[b[i]] 但我的问题是是否有一个内在的东西 dst[b[i]] = a[i] 我希望它能够处理 8 位的 16 个元素 (

回答 1 投票 0

SIMD 编程语言

在过去的几年里,我做了很多 SIMD 编程,大部分时间我都依赖编译器内部函数(例如用于 SSE 编程的函数)或编程

回答 9 投票 0

如何使 SIMD 除以零得到零? (x86-64)

我有一些想要除法的浮点数,其中一些可能是零。我怎样才能做到在 x86-64 上除以零时,只返回零而不是 NaN ? 我尝试将 FZ 设置为...

回答 1 投票 0

SSE如何修复c++中双循环的条件

我想用sse来优化c++代码,但是遇到一个函数中有两个双循环的情况,原代码: 双 eval_pef(int n, int delta, 双质量, 双重力, 双 sep,...

回答 1 投票 0

如何设置通过 FastAPI/Starlette 发送 SSE 时的事件以在同一流上有不同的事件

我想从 FastAPI 在单个流上发送具有不同事件的 SSE 并在浏览器中使用 HTMX-sse 接收它们。 推荐的方法是使用 sse-starlette。 完整的工作示例位于 https://

回答 1 投票 0

删除单个 api gin 的写入超时

a.httpServer = &http.Server{ 处理程序:c.Handler(a.router.Router), 写入超时:cfg.HTTP.WriteTimeout, 读取超时:cfg.HTTP.ReadTimeout, 空闲超时:cfg.HTTP.IdleTimeout,

回答 1 投票 0

使用 SSE2 内在函数进一步优化此卡方函数的建议

我正在尝试将 C 代码中的以下卡方函数转换为 SSE2 内在函数 我得到了这两个函数的正确输出。我测量了这两个函数所需的时间...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.