avx2 相关问题

AVX2(高级矢量扩展2)是x86的指令集扩展。它增加了256位版本的整数指令(其中AVX仅提供256b浮点)。

如何在两个AVX2向量之间交换128位部分

问题:我有4 x 256位AVX2向量(A,B,C,D),我需要对它们各自的128位部分以及两个不同向量之间进行交换操作。这是我需要的转换...

回答 1 投票 2

为什么gcc -O3处理avx256的内在函数与gcc -O1和clang不同?

我想设置两个整数向量,并将它们与SIMD进行比较,然后稍后将此掩码用于打包浮点的混合操作。我产生了以下代码:#include #include&...

回答 1 投票 2

矩阵乘法与openmp并用avx2向量化

((1)对于某些尺寸(矩阵尺寸)的代码,效果很好,但对于某些尺寸,它计算出的矩阵乘法错误,尽管我小心地使用了Avx2指令集,但我无法弄清楚问题出在哪里……

回答 1 投票 0

矢量化随机初始化,并使用AVX2对具有十进制数字数组的BigInt进行打印?

我如何将我的代码传递给AVX2代码,并获得与以前相同的结果?是否可以在LongNumInit,LongNumPrint函数中使用__m256i代替uint8_t * L或某些类似类型的...

回答 1 投票 -1

矢量化随机初始化,并使用AVX2对具有十进制数字数组的BigInt进行打印?

我如何将我的代码传递给AVX2代码,并获得与以前相同的结果?。是否可以在LongNumInit,LongNumPrint函数中使用而不是uint8_t * L __m256i或某些类似类型的变量?...

回答 1 投票 -1

将向量以不匹配的大小加载到AVX2寄存器中

假设我有一个double的C ++ std向量,应该将其加载到AVX2寄存器中。只需使用_mm256_load_pd(&vector1 [0])命令即可完成。向量可以具有任何大小,并且...

回答 3 投票 1

Ubuntu-如何确定CPU应用程序当前是否正在使用AVX或SSE?

我目前在许多具有GPU的服务器上运行BOINC。这些服务器同时运行GPU和CPU BOINC应用程序。由于AVX和SSE在CPU应用程序中使用时会降低CPU频率,因此我必须是...

回答 2 投票 -1

使用AVX512或AVX2计算所有压缩32位整数的和的最快方法

我正在寻找一种最佳方法来计算__m256i或__m512i中所有打包的32位整数之和。要计算n个元素的总和,我通常使用log2(n)vpaddd和vpermd函数,然后提取...

回答 1 投票 1

使用AVX512计算所有压缩32位整数的和的最快方法

我正在寻找一种最佳方法来计算__m256i或__m512i中所有打包的32位整数之和。要计算n个元素的总和,我经常使用log2(n)vpaddd和vpermd函数,然后提取...

回答 1 投票 0

如何将__m128i转换为__m256i,同时将高位设置为零?

我希望VC ++发出这样的代码:vpxor ymm0,ymm0,ymm0 vmovdqa xmm0,xmm7在人类语言中,我想要一个32字节的__m256i值,其中最低的16个字节来自另一个变量,而...

回答 1 投票 1

AVX2和AVX512的加速

我正在尝试可视化合并AVX2和AVX512的加速#include #include #include #include #include ...

回答 1 投票 0

如何将SSE汇编代码转换为AVX1 / 2汇编代码?

我正在尝试以NASM或MASM(Intel语法)将功能从AVX转换为AVX2。特别是:vmovapd xmm0,XMMWORD PTR [rax]就像一个超级按钮。 vmovapd ymm0,YMMWORD PTR [rax]抛出一个...

回答 1 投票 0

使用AVX将压缩的64位整数转换为压缩的8位整数的有效解决方案

我正在寻找一种将打包的64位整数饱和为8位整数的解决方案。看了_mm256_cvtepi64_epi8,但它并未饱和,但会截断,这会导致不必要的输出。我的...

回答 1 投票 0

从填充为0的数组加载到256位AVX2寄存器中

我想将4倍加载到256位寄存器中,如果数组大小小于4,则用0填充。寄存器__m256d c = _mm256_loadu_pd(C);现在假设C中只有三个元素,我想...

回答 1 投票 1

[我试图清除classifier.py文件,但出现这些错误,有人可以帮我清除这些错误吗?

(tensorflow)C:\ Users \ pratap \ youcode> python classify.py -i test-pos使用TensorFlow后端。 2020-01-08 11:06:52.990112:我tensorflow / core / platform / cpu_feature_guard.cc:145]这个TensorFlow二进制文件是...

回答 1 投票 0

AVX2:512个浮点数组的计算点积

首先,我是SIMD内部函数的完整入门者。本质上,我有一个支持AVX2 instrinsic的CPU(Intel®Core™i5-7500T CPU @ 2.70GHz)。我想要...

回答 1 投票 4

缩小两台机器之间ddot的差异

我目前有两台机器,它们在两个向量上为np.dot的实例产生不同的输出。无需深入研究从NumPy到BLAS的抽象层,我就能...

回答 1 投票 2

收集AVX2&512固有的16位整数?

想象一下这段代码:void Function(int16 * src,int * indices,float * dst,int cnt,float mul){for(int i = 0; i

回答 1 投票 0

使用AVX2 C ++的选择性负载

我正在尝试使用AVX2实现以下目标,但花了半天时间却无法完成。我尝试使用maskload和其他方法,但是还不能解决问题。我有两个...

回答 1 投票 0

使用AVX2指令左移128位数字的位数

我正在尝试在AVX2中向左旋转128位数字。由于没有直接的方法可以执行此操作,因此我尝试使用左移和右移来完成任务。这是...的摘要。] >>

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.