avx2 相关问题

AVX2(高级矢量扩展2)是x86的指令集扩展。它增加了256位版本的整数指令(其中AVX仅提供256b浮点)。

使用SSE / AVX / AVX2检查__m128i的所有字节是否匹配单个字节

我正在寻找计算以下函数的有效方法:输入:__ m128i数据,uint8_t in;输出:布尔值,指示数据中是否有任何字节。我实际上是用它们来实现...

回答 1 投票 0

SIMD __m256i到__m256d投射结果

我试图将SIMD整数变量转换为double。但我看不出这次行动的结果会是什么。示例:int arr [8] = {12345678,12333333,12344444,12355555,12366666,12377777,...

回答 3 投票 0

如何在AVX2中从32位转换为16位无符号整数?

我使用_mm256_cvtps_epi32()将8个浮点数转换为8x32位整数。但目标是获得16位无符号整数。我有2个向量a0和a1,每个都是__m256i类型。什么是最快的方式......

回答 1 投票 1

AVX和浮点之间有什么关系,为什么AVX用于FP计算?

我最近在维基百科上学习FP和AVX(https://en.wikipedia.org/wiki/Advanced_Vector_Extensions#Applications)我读到AVX用于FP计算。我无法弄清楚为什么......

回答 2 投票 0

英特尔向量指令将以32位int打包的8个4位值零扩展到__m256i?

正如问题所说,我有一个普通的int,它是8个打包值,每个4位,我想将其零扩展到256位向量寄存器。这可能与sse / avx / avx2有关吗?

回答 2 投票 3

AVX2什么是基于面具打包左边最有效的方法?

如果你有一个输入数组和一个输出数组,但是你只想写那些通过某个条件的元素,那么在AVX2中这样做最有效的方法是什么?我在SSE见过......

回答 4 投票 23

使用变量使用_mm256_extract_epi32()内在函数索引simd向量

我正在使用AVX内在_mm256_extract_epi32()。我不完全确定我是否正确使用它,因为gcc不喜欢我的代码,而clang编译并运行它没有问题。 ...

回答 2 投票 5

构建intel xeon gold 6148的张量流

我有一台服务器,上面运行两个Intel xeon gold 6148和tensorflow。当我用pip安装tf时,我收到一条消息,说我的安装不使用AVX2和AVX512。所以,要获得最好的......

回答 1 投票 0

Xcode Apple Clang启用avx512

在Xcode(版本10.1(10B61))中,我使用如下的Macro来检测AVX512支持。 #ifdef __SSE4_1__ #error“sse4_1”#endif #ifdef __AVX__ #error“avx”#endif #ifdef __AVX2__ #error“avx2”#endif#...

回答 1 投票 1

相同的AVX2程序在gcc和msvc中产生不同的结果

我正在尝试使用AVX2增加md5哈希的吞吐量。我使用了github用户提供的simd_md5库。在msvc2013上,我获得了所有8个缓冲区的所需结果,但是当我运行相同时在linux上...

回答 1 投票 1

AVX2指令延迟和吞吐量

我对以下内在函数/指令的性能属性感兴趣:_mm256_andnot_si256 / vpandn _mm256_and_si256 / vpand _mm256_cmpgt_epi32 / vpcmpgtd和其他一些。但......

回答 1 投票 5

AVX512中是否有像_mm512_sign_epi16(__ m512i a,__ m512i b)的功能

以下功能似乎在AVX512上不可用:__ m512i _mm512_sign_epi16(__ m512i a,__ m512i b)它可以很快就可用还是有替代品?

回答 2 投票 4

在CPU中禁用AVX2以进行测试

我有一个需要AVX2正常工作的应用程序。如果CPU具有AVX2指令,则执行检查以在应用程序启动期间进行检查。我想检查它是否正常工作,但我......

回答 1 投票 8

AVX2:分配给__m256i类成员时出现分段错误

我目前正在重构一个命令式的C ++程序,该程序将AVX2原语广泛用于结构良好的基于 类的程序。不幸的是,我在分配课程时遇到了段错误......

回答 1 投票 1

如何有效地重新排序__m256i向量的字节(将int32_t转换为uint8_t)?

我需要优化以下压缩操作(在具有AVX2指令的服务器上):取浮点数组的指数,移位并存储到uint8_t数组我几乎没有...

回答 1 投票 1

当我测试模块的循环次数时,每次测试的结果都是完全不同的。

当我测试模块的循环次数时,每次测试的结果都大不相同?1781344 - >第一次测试1264558 - >第二次测试1388058 - >第三次测试我用__rdtsc()来记录周期,...

回答 1 投票 0

AVX2转置由8x __m256i寄存器表示的矩阵

我试图找出如何转换(在AVX2内在函数中)由8行__m256i寄存器组成的矩形矩阵,每个寄存器包含32x 8位(char)。 __m256i矩阵[8]; // 32x8bit整数...

回答 1 投票 4

将8个字符从内存加载到__m256变量中作为压缩单精度浮点数

我正在优化图像上的高斯模糊算法,我想用下面的代码替换__m256内部变量中浮点缓冲区[8]的用法。什么系列的指令是最好的......

回答 1 投票 5

如何将32位浮点数转换为8位有符号字符?

我想要做的是:将输入浮点数乘以固定因子。将它们转换为8位有符号字符。请注意,大多数输入具有较小的绝对值范围,如[-6,6],...

回答 2 投票 3

编译AVX2程序

我用AVX内在函数编写了一个程序,它使用Ubuntu 12.4 LTS和GCC 4.6以及以下编译行很好地工作:g ++ -g -Wall -mavx ProgramName.cc -o ProgramName问题...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.