intrinsics 相关问题

在编译语言中使用内在函数来使用语言范围之外的特定CPU指令。

AVX __m256i用于带符号的32位元素的整数除法

我试图在AVX机器中进行SIMD分区并获得编译错误。这是我的代码:__ m256i help; int arr [8]; int arr2 [8]; help = _mm256_load_si256((__ m256i *)arr); ...

回答 1 投票 1

有符号整数溢出,内在函数和未定义的行为

以下非常简单的代码是否容易受到未定义的行为的影响,因为整数因操作而溢出? static volatile LONG x = LONG_MAX; InterlockedIncrement(x)的;根据 ...

回答 1 投票 0

SIMD __m256i到__m256d投射结果

我试图将SIMD整数变量转换为double。但我看不出这次行动的结果会是什么。示例:int arr [8] = {12345678,12333333,12344444,12355555,12366666,12377777,...

回答 3 投票 0

互惠函数的cuda“舍入模式”[重复]

查看Cuda-Math-Api文档,函数__frcp_rd以向下舍入模式计算1 / x __frcp_rn以舍入到最接近模式计算1 / x __frcp_ru以向上舍入模式计算1 / x ...

回答 1 投票 1

SIMD:累积相邻对

我正在学习如何使用SIMD内在函数和自动向量化。幸运的是,我有一个有用的项目,我正在努力,似乎非常适合SIMD,但对于像我这样的新手来说仍然很棘手。我......

回答 1 投票 3

计算8个AVX单精度浮点矢量的8个水平和

我有8个AVX向量,每个向量包含8个浮点数(总共64个浮点数),我想将每个向量中的元素加在一起(基本上执行8个水平求和)。现在,我使用以下代码:...

回答 2 投票 8

使用变量使用_mm256_extract_epi32()内在函数索引simd向量

我正在使用AVX内在_mm256_extract_epi32()。我不完全确定我是否正确使用它,因为gcc不喜欢我的代码,而clang编译并运行它没有问题。 ...

回答 2 投票 5

内联汇编导致分段错误(核心转储)

我正在尝试将英特尔内在函数转换为内联汇编。代码将计算4x4矩阵。 A和B的大小分别为4×kc和kc×4。这是完整的......

回答 1 投票 0

使用AVX内在函数对__mm512中的8位整数求和

AVX512为我们提供了内在函数来对__mm512向量中的所有单元求和。然而,他们的一些同行失踪了:还没有_mm512_reduce_add_epi8。 _mm512_reduce_add_ps //水平......

回答 1 投票 0

如何在JMH示例中消除Math.log()的死代码

每个试图利用JMH框架创建一些有意义的测试的人都会遇到JMH样本测试(http://hg.openjdk.java.net/code-tools/jmh/file/tip/jmh-samples/src/main/java /组织/ OpenJDK的/ ...

回答 1 投票 5

__m256未知类型(铿锵5.1 / i5 CPU)?

我刚开始尝试内在函数。我设法使用Clang 5.1在Mac上使用__m128成功编译程序。这台Mac上的CPU是英特尔酷睿i5 M540。当我试图编译时......

回答 1 投票 1

缺少面具的AVX-512内在函数?

英特尔的内在指南列出了AVX-512 K *掩码指令的一些内在函数,但似乎有一些缺失:KSHIFT {L / R} KADD KTEST英特尔开发人员手册声称......

回答 1 投票 6

在使用new []分配的阵列上使用avx时出现分段错误(核心转储)

当我在visual studio 2015中运行此代码时,代码可以正常工作。但代码在代码块中生成以下错误:分段错误(核心转储)。我也在ubuntu中使用相同的代码运行代码...

回答 2 投票 2

关闭优化时未解析的外部符号__aullshr

我正在使用Visual Studio 2015 C / C ++编译器编译一段UEFI C代码。编译器的目标是IA32,而不是X64。使用“/ O1”打开优化时,构建正常。当转...

回答 2 投票 3

intel编译器/ LLVM上的并行位存储/并行位提取?

对于带有BMI指令的cpus,可以使用内置函数对GCC使用并行位存储(pdep)和并行位提取(pext):unsigned int _pdep_u32(unsigned int,unsigned ...

回答 1 投票 1

锁定免费的非分配集合

我正在寻找一个集合数据结构:线程安全锁定免费非分配(摊销或预分配是好的)非侵入性不使用外来内在元素顺序不...

回答 1 投票 0

检查所有__m128i组件是否为0的最有效方法[使用<= SSE4.1内在函数]

我正在使用SSE内在函数来确定矩形(由四个int32值定义)是否已更改:__ m128i oldRect; //包含旧的left,top,right,bottom打包到128位__m128i newRect; // ...

回答 2 投票 10

AVX512中是否有像_mm512_sign_epi16(__ m512i a,__ m512i b)的功能

以下功能似乎在AVX512上不可用:__ m512i _mm512_sign_epi16(__ m512i a,__ m512i b)它可以很快就可用还是有替代品?

回答 2 投票 4

如何有效地重新排序__m256i向量的字节(将int32_t转换为uint8_t)?

我需要优化以下压缩操作(在具有AVX2指令的服务器上):取浮点数组的指数,移位并存储到uint8_t数组我几乎没有...

回答 1 投票 1

为什么_mm_permute_ps的最后一个参数是int?

GCC告诉我,SIMD内在_mm_permute_ps的最后一个参数必须是8位立即数。那么为什么它的最后一个参数被声明为期望一个int? __m128 _mm_permute_ps(...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.