neon 相关问题

NEON是ARM处理器的矢量处理指令集。

NEON：优化代码

我目前正在使用 ARM Neon，并编写了以下函数，一个用 C 语言，一个用 NEON Intrinsics 来比较速度。这些函数比较两个数组。参数 cb 是

c arm neon

回答 1 投票 0

如何查看手臂上是否有NEON？

如何确定给定 ARM 处理器上是否存在 NEON 引擎？为此目的可以查询任何状态/标志寄存器吗？

arm feature-detection neon

回答 4 投票 0

使用arm neon内在函数将float32类型转换为int16

我是 Arm neon 内在函数的新手，我想用标量 (2^13 = 8192) 缩放 float32 数组，并将其类型转换为 int16_t 数组。我相信我需要执行以下步骤：加载浮标

arm neon

回答 1 投票 0

位分散在多个 NEON 寄存器上

将内存中的位均匀分布到多个向量寄存器的最有效方法是什么？所有数据必须以目标寄存器的最低有效位结束。例如，2 b如何...

assembly arm neon

回答 1 投票 0

高效使用水平 Neon 内在函数

从 ARM Instruction Set Reference 读取，执行水平归约的操作确实将目标值保存在 neon 寄存器中。然而，内在函数定义和 clang

assembly inline-assembly arm64 intrinsics neon

回答 1 投票 0

ARM 汇编向量加法

我必须使用内联ARM汇编在C++程序中实现向量加法。我写了这段代码： #包括 #包括 #包括使用命名空间...

assembly inline-assembly arm64 neon

回答 1 投票 0

在clangAArch64上用NEON本征扩展int32x2_t到int32x4_t时，如何用NEON本征扩展新通道？

ARM爱好者们，我想用NEON代码将2个s32缩小并饱和到2个s16，然后将它们打包在一个GPR中。我需要符合一定的API，所以请不要在这里讨论效率或设计:) 这里是...

arm simd intrinsics arm64 neon

回答 1 投票 2

为什么根据时钟周期数和核心频率测得的NEON内联汇编代码运行时间与预期时间不一致？

我用ARM NEON内联汇编实现了示例代码（代码没有意义）。有（大约，我使用了ARMv7的信息，这是ARMv8的信息，但我不希望这个数字会更高）......

assembly arm cpu-architecture neon cpu-cycles

回答 1 投票 -3

为什么ARM NEON代码比原生C代码慢？

我在ARM NEON（ARM8-A架构）中实现了去量化操作。但我面临一个奇怪的问题，ARM NEON版本（11毫秒）比C版本（4.75毫秒）慢。

c++ c arm neon

回答 1 投票 0

NEON本体中 "最大 "与 "最大数量 "的关系

NEON本质描述中的 "最大 "和 "最大数 "有什么区别？如(来自https:/developer.arm.comarchitecturesinstruction-setssimd-isasneonintrinsics) ...

arm simd arm64 neon

回答 1 投票 0

ARM-v8 NEON：是否有指令将单个普通寄存器跨NEON寄存器的多个通道分割？

我是ARM-v8（AArch64）的新手，在ARM-v7中只做了一点NEON编码（但是我对A32和正常A64的ok（*）非常满意）。最终，我想做的就是计算频率...

arm arm64 neon

回答 3 投票 0

如何使用VLDn指令在NEON中实现4路解交织负载

供参考，我正在看http://infocenter.arm.com/help/topic/com.arm.doc.dui0489c/DUI0489C_arm_assembler_reference.pdf的4-65部分，我正在努力理解参考指南，但是我是...

assembly arm simd neon

回答 1 投票 1

ARMv8 Advanced SIMD：“操作数2的无效寻址模式-'st1 {V1.D} [0]，[x20,640]'”

我正在尝试从V寄存器到X寄存器中保存的地址将64位存储到内存，但出现错误，“操作数2的寻址方式无效-`st1 {V1.D} [0]，[ x20,640]”。来自ARMv8 ...

assembly memory arm neon armv8

回答 1 投票 0

VNNI指令的NEON仿真

Cascade Lake Intel CPU中有新的AVX-512 VNNI指令，可以加快CPU上神经网络的推断。我将它们集成到Simd库中以加速Synet（一个小的框架...

c++ simd neon simd-library synet

回答 1 投票 1

C / Renderscript / Neon本征之间的电池功耗—视频滤波器（Edgedetection）APK

android c android-ndk neon renderscript

回答 2 投票 2

有没有一种方法可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值？

是否可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值？例如，而不是像int32x2_t做a，b，c，d，e，f； ..........其他一些...

optimization arm simd intrinsics neon

回答 1 投票 0

使用ARM Neon内部函数从64位访问32位

如何使用ARM Neon Intrinsics从64位带符号整数访问低32位或高32位？另外，我想将提取的数据分配给另一个32位变量。有可能吗？

c arm simd intrinsics neon

回答 2 投票 0

在简单的添加任务中使用ARM NEON速度较慢

我试图编写一个简单的NEON代码，但是发现它比常规的C ++实现要慢。代码如下：float A [] = {1,2,3,4};浮点B [] = {2,3,4,5}; float32x4_t v1; float32x4_t ...

arm neon

回答 1 投票 0

NEON中的_mm_hadd_ps等于什么？

我正在尝试将以下代码从SSE转换为适用于Apple的64位iOS设备的NEON：void Matrix :: TransformPoint（const float vec [4]，const Matrix＆matTrans，float out [4]）{...

c++ arm sse simd neon

回答 2 投票 1

ARM64 Neon-在所有uint8x8x4_t上存储一个相同的uint8x8_t

有一个uint8x8_t，例如[100，100，100，100，200，200，200，200]上面的uint8x8_t如何用一个指令/内在函数存储在一个uint8x8x4_t上？目前，我们使用uint8x8x4_t.val [0] ...

ios arm64 neon

回答 1 投票 0

neon 相关问题

最新问题