neon 相关问题

NEON是ARM处理器的矢量处理指令集。

NEON:优化代码

我目前正在使用 ARM Neon,并编写了以下函数,一个用 C 语言,一个用 NEON Intrinsics 来比较速度。这些函数比较两个数组。参数 cb 是

回答 1 投票 0

如何查看手臂上是否有NEON?

如何确定给定 ARM 处理器上是否存在 NEON 引擎?为此目的可以查询任何状态/标志寄存器吗?

回答 4 投票 0

使用arm neon内在函数将float32类型转换为int16

我是 Arm neon 内在函数的新手,我想用标量 (2^13 = 8192) 缩放 float32 数组,并将其类型转换为 int16_t 数组。 我相信我需要执行以下步骤: 加载浮标

回答 1 投票 0

位分散在多个 NEON 寄存器上

将内存中的位均匀分布到多个向量寄存器的最有效方法是什么?所有数据必须以目标寄存器的最低有效位结束。 例如,2 b如何...

回答 1 投票 0

高效使用水平 Neon 内在函数

从 ARM Instruction Set Reference 读取,执行水平归约的操作确实将目标值保存在 neon 寄存器中。 然而,内在函数定义和 clang

回答 1 投票 0

ARM 汇编向量加法

我必须使用内联ARM汇编在C++程序中实现向量加法。 我写了这段代码: #包括 #包括 #包括 使用命名空间...

回答 1 投票 0

在clangAArch64上用NEON本征扩展int32x2_t到int32x4_t时,如何用NEON本征扩展新通道?

ARM爱好者们,我想用NEON代码将2个s32缩小并饱和到2个s16,然后将它们打包在一个GPR中。我需要符合一定的API,所以请不要在这里讨论效率或设计:) 这里是...

回答 1 投票 2

为什么根据时钟周期数和核心频率测得的NEON内联汇编代码运行时间与预期时间不一致?

我用ARM NEON内联汇编实现了示例代码(代码没有意义)。有(大约,我使用了ARMv7的信息,这是ARMv8的信息,但我不希望这个数字会更高)......

回答 1 投票 -3

为什么ARM NEON代码比原生C代码慢?

我在ARM NEON(ARM8-A架构)中实现了去量化操作。但我面临一个奇怪的问题,ARM NEON版本(11毫秒)比C版本(4.75毫秒)慢。

回答 1 投票 0

NEON本体中 "最大 "与 "最大数量 "的关系

NEON本质描述中的 "最大 "和 "最大数 "有什么区别?如(来自https:/developer.arm.comarchitecturesinstruction-setssimd-isasneonintrinsics) ...

回答 1 投票 0

ARM-v8 NEON:是否有指令将单个普通寄存器跨NEON寄存器的多个通道分割?

我是ARM-v8(AArch64)的新手,在ARM-v7中只做了一点NEON编码(但是我对A32和正常A64的ok(*)非常满意)。最终,我想做的就是计算频率...

回答 3 投票 0

如何使用VLDn指令在NEON中实现4路解交织负载

供参考,我正在看http://infocenter.arm.com/help/topic/com.arm.doc.dui0489c/DUI0489C_arm_assembler_reference.pdf的4-65部分,我正在努力理解参考指南,但是我是...

回答 1 投票 1

ARMv8 Advanced SIMD:“操作数2的无效寻址模式-'st1 {V1.D} [0],[x20,640]'”

我正在尝试从V寄存器到X寄存器中保存的地址将64位存储到内存,但出现错误,“操作数2的寻址方式无效-`st1 {V1.D} [0],[ x20,640]”。来自ARMv8 ...

回答 1 投票 0

VNNI指令的NEON仿真

Cascade Lake Intel CPU中有新的AVX-512 VNNI指令,可以加快CPU上神经网络的推断。我将它们集成到Simd库中以加速Synet(一个小的框架...

回答 1 投票 1


有没有一种方法可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值?

是否可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值?例如,而不是像int32x2_t做a,b,c,d,e,f; ..........其他一些...

回答 1 投票 0

使用ARM Neon内部函数从64位访问32位

如何使用ARM Neon Intrinsics从64位带符号整数访问低32位或高32位?另外,我想将提取的数据分配给另一个32位变量。有可能吗?

回答 2 投票 0

在简单的添加任务中使用ARM NEON速度较慢

我试图编写一个简单的NEON代码,但是发现它比常规的C ++实现要慢。代码如下:float A [] = {1,2,3,4};浮点B [] = {2,3,4,5}; float32x4_t v1; float32x4_t ...

回答 1 投票 0

NEON中的_mm_hadd_ps等于什么?

我正在尝试将以下代码从SSE转换为适用于Apple的64位iOS设备的NEON:void Matrix :: TransformPoint(const float vec [4],const Matrix&matTrans,float out [4]){...

回答 2 投票 1

ARM64 Neon-在所有uint8x8x4_t上存储一个相同的uint8x8_t

有一个uint8x8_t,例如[100,100,100,100,200,200,200,200]上面的uint8x8_t如何用一个指令/内在函数存储在一个uint8x8x4_t上?目前,我们使用uint8x8x4_t.val [0] ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.