avx2 相关问题

AVX2（高级矢量扩展2）是x86的指令集扩展。它增加了256位版本的整数指令（其中AVX仅提供256b浮点）。

如何在两个AVX2向量之间交换128位部分

问题：我有4 x 256位AVX2向量（A，B，C，D），我需要对它们各自的128位部分以及两个不同向量之间进行交换操作。这是我需要的转换...

c# c++ .net avx2

回答 1 投票 2

为什么gcc -O3处理avx256的内在函数与gcc -O1和clang不同？

我想设置两个整数向量，并将它们与SIMD进行比较，然后稍后将此掩码用于打包浮点的混合操作。我产生了以下代码：#include #include＆...

c gcc simd avx2

回答 1 投票 2

矩阵乘法与openmp并用avx2向量化

（（1）对于某些尺寸（矩阵尺寸）的代码，效果很好，但对于某些尺寸，它计算出的矩阵乘法错误，尽管我小心地使用了Avx2指令集，但我无法弄清楚问题出在哪里……

c openmp avx2

回答 1 投票 0

矢量化随机初始化，并使用AVX2对具有十进制数字数组的BigInt进行打印？

我如何将我的代码传递给AVX2代码，并获得与以前相同的结果？是否可以在LongNumInit，LongNumPrint函数中使用__m256i代替uint8_t * L或某些类似类型的...

gcc optimization intrinsics bigint avx2

回答 1 投票 -1

矢量化随机初始化，并使用AVX2对具有十进制数字数组的BigInt进行打印？

我如何将我的代码传递给AVX2代码，并获得与以前相同的结果？。是否可以在LongNumInit，LongNumPrint函数中使用而不是uint8_t * L __m256i或某些类似类型的变量？...

gcc optimization intrinsics avx2

回答 1 投票 -1

将向量以不匹配的大小加载到AVX2寄存器中

假设我有一个double的C ++ std向量，应该将其加载到AVX2寄存器中。只需使用_mm256_load_pd（＆vector1 [0]）命令即可完成。向量可以具有任何大小，并且...

c++ avx avx2 avx512

回答 3 投票 1

Ubuntu-如何确定CPU应用程序当前是否正在使用AVX或SSE？

我目前在许多具有GPU的服务器上运行BOINC。这些服务器同时运行GPU和CPU BOINC应用程序。由于AVX和SSE在CPU应用程序中使用时会降低CPU频率，因此我必须是...

gpu sse avx avx2 boinc

回答 2 投票 -1

使用AVX512或AVX2计算所有压缩32位整数的和的最快方法

我正在寻找一种最佳方法来计算__m256i或__m512i中所有打包的32位整数之和。要计算n个元素的总和，我通常使用log2（n）vpaddd和vpermd函数，然后提取...

c avx2 avx512

回答 1 投票 1

使用AVX512计算所有压缩32位整数的和的最快方法

我正在寻找一种最佳方法来计算__m256i或__m512i中所有打包的32位整数之和。要计算n个元素的总和，我经常使用log2（n）vpaddd和vpermd函数，然后提取...

c avx2 avx512

回答 1 投票 0

如何将__m128i转换为__m256i，同时将高位设置为零？

我希望VC ++发出这样的代码：vpxor ymm0，ymm0，ymm0 vmovdqa xmm0，xmm7在人类语言中，我想要一个32字节的__m256i值，其中最低的16个字节来自另一个变量，而...

c++ visual-c++ simd avx2

回答 1 投票 1

AVX2和AVX512的加速

我正在尝试可视化合并AVX2和AVX512的加速#include #include #include #include #include ...

c avx avx2 avx512

回答 1 投票 0

如何将SSE汇编代码转换为AVX1 / 2汇编代码？

我正在尝试以NASM或MASM（Intel语法）将功能从AVX转换为AVX2。特别是：vmovapd xmm0，XMMWORD PTR [rax]就像一个超级按钮。 vmovapd ymm0，YMMWORD PTR [rax]抛出一个...

assembly x86-64 nasm avx2 masm64

回答 1 投票 0

使用AVX将压缩的64位整数转换为压缩的8位整数的有效解决方案

我正在寻找一种将打包的64位整数饱和为8位整数的解决方案。看了_mm256_cvtepi64_epi8，但它并未饱和，但会截断，这会导致不必要的输出。我的...

c avx avx2 avx512

回答 1 投票 0

从填充为0的数组加载到256位AVX2寄存器中

我想将4倍加载到256位寄存器中，如果数组大小小于4，则用0填充。寄存器__m256d c = _mm256_loadu_pd（C）;现在假设C中只有三个元素，我想...

c x86 simd avx2

回答 1 投票 1

[我试图清除classifier.py文件，但出现这些错误，有人可以帮我清除这些错误吗？

（tensorflow）C：\ Users \ pratap \ youcode> python classify.py -i test-pos使用TensorFlow后端。 2020-01-08 11：06：52.990112：我tensorflow / core / platform / cpu_feature_guard.cc：145]这个TensorFlow二进制文件是...

tensorflow avx avx2

回答 1 投票 0

AVX2：512个浮点数组的计算点积

首先，我是SIMD内部函数的完整入门者。本质上，我有一个支持AVX2 instrinsic的CPU（Intel®Core™i5-7500T CPU @ 2.70GHz）。我想要...

c++ simd avx2 dot-product fma

回答 1 投票 4

缩小两台机器之间ddot的差异

我目前有两台机器，它们在两个向量上为np.dot的实例产生不同的输出。无需深入研究从NumPy到BLAS的抽象层，我就能...

scipy blas intel-mkl avx2 avx512

回答 1 投票 2

收集AVX2＆512固有的16位整数？

想象一下这段代码：void Function（int16 * src，int * indices，float * dst，int cnt，float mul）{for（int i = 0; i

optimization avx2 avx512

回答 1 投票 0

使用AVX2 C ++的选择性负载

我正在尝试使用AVX2实现以下目标，但花了半天时间却无法完成。我尝试使用maskload和其他方法，但是还不能解决问题。我有两个...

c++ avx2

回答 1 投票 0

使用AVX2指令左移128位数字的位数

我正在尝试在AVX2中向左旋转128位数字。由于没有直接的方法可以执行此操作，因此我尝试使用左移和右移来完成任务。这是...的摘要。] >>

c++ simd intrinsics avx avx2

回答 1 投票 0

avx2 相关问题

最新问题