sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

Clang:x86 FPU调用约定

我需要为32位平台(x86):Win32,Linux32和MacOS32支持动态库和目标文件的静态链接。传递FPU参数(浮点型和双精度型)时会发生此问题。由...

回答 1 投票 1

SSE / AVX是否提供确定结果是否舍入的方法?

x87 FPU状态字中C1位的目的之一是显示是否将不精确的结果四舍五入。 SSE / AVX是否为标量操作提供任何此类指示?我没有...

回答 1 投票 4

gdb调试器中__m128数据类型的打印值

是否可以在GDB中直接打印数据类型__m128(用于Intel SSE Intrinsics)的变量的值?命令print $ myVariable对于int和float有效,但对__m128无效。 ...

回答 1 投票 7

xmm寄存器何时__m128?

调用_mm_load_ps返回__m128。在《英特尔内部函数指南》中它说:将128位(由4个压缩的单精度(32位)浮点元素组成)从dst加载。 mem_addr ...

回答 1 投票 0

ARM NEON的SSE _mm_movemask_epi8等效方法

我决定继续进行快速弯道优化,并坚持使用_mm_movemask_epi8 SSE指令。如何使用uint8x16_t输入为ARM Neon重写它?

回答 4 投票 5

向量矩阵乘法,浮点向量,二进制矩阵

我想将大小为N的浮点向量与大小为NxM的矩阵相乘。矩阵是二进制矩阵(仅包含零和1),并且相对稀疏:非零值的密度在1%到5%之间...

回答 1 投票 0

页面故障maskmovdqu / _mm_maskmoveu_si128-如何避免?

我有一个功能,可以流式传输结构化数据。数据为Vec4 / Vec3 / Vec2 / float结构,因此每个结构的最大大小为16个字节。现在可能会发生,正在读取流...

回答 1 投票 0

SIMD,SSE,AVX-掩码8由未签名的字符浮起来?

如何通过无符号char变量中的位屏蔽__m256变量中的8个浮点数? (编译期间未知)__m256 flts = _mm256_set1_ps(5.0f); unsigned char = 0b10010111; // ...

回答 1 投票 0

如何解决AVX加载/存储操作的32字节对齐问题?

我在使用ymm寄存器时遇到对齐问题,其中一些代码片段对我来说似乎很好。这是一个最小的工作示例:#include #include ...

回答 3 投票 11

“奇数大小的对齐向量上的“安全” SIMD算法?

假设我有一些16字节的对齐结构,只包装3xFloat32数组:#[repr(C,align(16))] pub struct Vector(pub [f32; 3]);现在,我想将其划分为两个实例,例如:use ...

回答 2 投票 5

“奇数大小的对齐向量上的“安全” SIMD算法?

假设我有一些16字节的对齐结构,只包装3xFloat32数组:#[repr(C,align(16))] pub struct Vector(pub [f32; 3]);现在,我想将其划分为两个实例,例如:use ...

回答 2 投票 5

“奇数大小的对齐向量上的“安全” SIMD运算符?

假设我有一些16字节的对齐结构,只包装3xFloat32数组:#[repr(C,align(16))] pub struct Vector(pub [f32; 3]);现在,我想将其划分为两个实例,例如:use ...

回答 1 投票 2

FASM对齐32的部分对齐不充分

我使用FASM,这是我的程序格式ELF64节'.text'可执行公共函数func:vmovaps ymm0,YWORD [.table] xor rax,rax ret align 32 ....

回答 1 投票 2

我AOS的理解VS SoA的优势/劣势是否正确?

我最近一直在阅读关于AOS VS SoA的结构设计和面向数据的设计。这是很奇怪很难找到任何信息,以及什么我发现,似乎承担更大的...

回答 1 投票 11

如何优化的C代码与SSE-内在为32×32打包=> 64位乘法,和拆包那些结果的两半(伽罗瓦域)

我一直挣扎在我开发一个应用程序的网络编码性能的同时(见Optimzing SSE代码,提高了编码,编码和OpenCL网络的性能...

回答 2 投票 8

如何转换的24bit RGB使用AVX2为32位?

我有SSSE3做到了这一点,现在我不知道这可能是与AVX2做有更好的表现?我与一个零字节的填充24位RGB,使用来自24位快速阵列的代码 - >的32位阵列...

回答 2 投票 1

如何使用_mm_extract_epi8功能? [重复]

我使用_mm_extract_epi8(__m128i一,const int的的imm8)功能,它具有const int的参数。当我编译此C ++代码,得到以下错误信息:错误C2057预期不变...

回答 2 投票 0

用型(浮球)中等作品(浮点常量和)夯实INT转换像(浮动)诠释呢?

VS2019,发布,X86。模板 漂浮的get()const的{INT F = _mm_extract_ps(FMM,I);返回(浮动常量&)F; }当使用return(浮动&)F;编译器使用extractps M32,......

回答 4 投票 6

什么是执行使用SIMD指令的任意128/256/512位重排列最快的方法?

我想执行单位,对位的,和半字节(4位)上的CPU寄存器宽度128,256或512位的(XMM,YMM或个zmm)的任意排列;这应该是尽可能快。 ...

回答 1 投票 11

我tensorflow /核心/平台/ cpu_feature_guard.cc:137]你的CPU支持,这TensorFlow二进制编译时不使用说明:SSE4.1 SSE4.2 [复制]

我在基于CPU的系统中安装了tensorflow使用命令:PIP安装tensorflow == 安装完成后没有任何错误和一些初步核查的一部分,我能...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.