avx2 相关问题

AVX2(高级矢量扩展2)是x86的指令集扩展。它增加了256位版本的整数指令(其中AVX仅提供256b浮点)。

C ++ AVX2内在函数非标准大小

我正在尝试在C ++中使用AVX2内在函数。我正在使用打包到__m256中的花车。有8个浮点数可以容纳在寄存器中。但是,如果我的浮子数少于8个,比如说我有5个,会发生什么情况?...

回答 1 投票 3

AVX2收集指令用法详细信息

我正在尝试了解AVX2 intel内在函数的收集功能。根据官方文档链接,函数定义为__m256i _mm256_i32gather_epi32(int const * base_addr,...

回答 1 投票 1

使用AVX-2的[32-1024位定点矢量算法

对于mandelbrot生成器,当您放大时,我想使用定点算法,范围从32到1024位。现在,由于缺少带进位和执行加法功能,因此正常情况下,SSE或AVX在这里没有帮助...

回答 1 投票 0

AVX2向量中每个元素的前导零位计数

对于AVX512,存在固有的_mm256_lzcnt_epi32,该函数返回一个矢量,对于8个32位元素中的每一个,该矢量都包含输入矢量元素中前导零位的数量。是...

回答 2 投票 1

Intel SIMD内在函数:_mm256_i64scatter_pd

我在编译英特尔SIMD散点内在函数时遇到麻烦。我已将原始代码简化为:double * tmpMemoryDoubles =(double *)malloc(1024); __m256i tmpRegisterIndex = _mm256_set_epi64x(...

回答 1 投票 0

AVX2和SSE2的位向量操作

我是AVX2和SSE2指令集的新手,我想学习更多有关如何使用此类指令集来加速位向量运算的信息。到目前为止,我已经成功地使用它们向量化了代码...

回答 1 投票 2

将2个32位数字相乘,并使用AVX2占用前32位

我正在使用乘法(加上其他运算)代替整数除法。我的解决方案最终需要我将2个32位数字相乘并取前32位...

回答 1 投票 0

防止gcc破坏我的AVX2内部函数

请考虑以下循环:模板 void copytail(T * __restrict__ dest,const T * __restrict__ src,size_t count){constexpr size_t chunk_size = 4 * 32; size_t byte_count = ...

回答 1 投票 2

带有YMM寄存器的AVX中STRLEN功能的指令

我正在使用AVX(而不是AVX2)创建strlen函数...通过AVX可以访问(YMM)寄存器,但是有一个问题...我了解strlen函数的指令是:...] >

回答 1 投票 0

分别在每个位列上的AVX2列填充计数算法

对于我正在研究的项目,我需要计算翻录的PDF图像数据中每列的设置位数。我正在尝试获取整个PDF作业(所有页面)中每一列的总设置位数。 ...

回答 2 投票 2

AVX2 SIMD Instrinsics 16位到8位反之亦然

我有一个c ++(或类似c的)函数,在该函数之下我尝试向量化。该函数是图像合成的多种变体之一,它采用具有色度444的Y,U或V图像平面...

回答 1 投票 4

当行大小大于矢量宽度时,SIMD转置

您会找到很多很好的答案,用于转置随SIMD指令集的自然大小而下降的矩阵,特别是在一行的大小不超过矢量宽度的情况下。 ...

回答 2 投票 1

Centos 7.7上的Vscode无法识别Intel AVX功能,有关__mm256i的错误

我想通过在项目中包含 库来使用一些avx2函数;但是,Vscode似乎无法识别这些功能,因为它表明我的项目包含各种...

回答 1 投票 0

如何转换的24bit RGB使用AVX2为32位?

我有SSSE3做到了这一点,现在我不知道这可能是与AVX2做有更好的表现?我与一个零字节的填充24位RGB,使用来自24位快速阵列的代码 - >的32位阵列...

回答 2 投票 1

什么是执行使用SIMD指令的任意128/256/512位重排列最快的方法?

我想执行单位,对位的,和半字节(4位)上的CPU寄存器宽度128,256或512位的(XMM,YMM或个zmm)的任意排列;这应该是尽可能快。 ...

回答 1 投票 11

自动向量化排指令

我试图让编译器生成通过自动矢量化(V)pshufd指令(或同等学历)。这是令人惊讶的困难。例如,假设的4个UINT32值的向量,所述...

回答 1 投票 2

如何混合32位整数?或者:为什么没有_mm256混合_epi32?

我正在使用AVX2 x86 256位SIMD扩展。我想做一个32位整数组件if-then-else指令。在英特尔文档中,这样的指令称为vblend。英特尔......

回答 1 投票 2

有没有机会用SIMD加速重复代码?

考虑下面的代码,其中a是float的参数数组,s是float的初始未初始化结果数组:s [n - 1] = mu * a [n - 1]; for(int j = n - 2; j> = 0; j--)s [j] = ...

回答 3 投票 2

将4个uint16_t打包在uint64_t中的快速模12算法

考虑以下联合:union Uint16Vect {uint16_t _comps [4]; uint64_t _all; };是否有一种快速算法来确定每个分量是否等于1模12?天真...

回答 5 投票 9

将整数向量转换为0到1之间的浮点数的最快速精确方法

考虑一个随机生成的__m256i向量。是否有更快的精确方法将它们转换为__m256浮点数向量,介于0(包含)和1(仅)之间,而不是浮点数除以(1ull <

回答 2 投票 6

© www.soinside.com 2019 - 2024. All rights reserved.