ARMv8浮点输出内联汇编

问题描述 投票:2回答:3

为了添加两个整数,我写道:

int sum;
asm volatile("add %0, x3, x4" : "=r"(sum) : :);

我怎么能用两个花车做到这一点?我试过了:

float sum;
asm volatile("fadd %0, s3, s4" : "=r"(sum) : :);

但它给了我一个错误:

错误:操作数1应该是SIMD向量寄存器 - “fadd x0,s3,s4”

有任何想法吗?

gcc floating-point arm inline-assembly arm64
3个回答
0
投票

ARMv7双:%P修改

GCC开发者告诉我在https://gcc.gnu.org/bugzilla/show_bug.cgi?id=89482#c4上用于ARMv7双打的正确的无证修饰符也许我应该在某天停止懒惰和grep GCC:

main.c中

#include <assert.h>

int main(void) {
    double my_double = 1.5;
    __asm__ (
        "vmov.f64 d0, 1.0;"
        "vadd.f64 %P[my_double], %P[my_double], d0;"
        : [my_double] "+w" (my_double)
        :
        : "d0"
    );
    assert(my_double == 2.5);
}

编译并运行:

sudo apt-get install qemu-user gcc-arm-linux-gnueabihf
arm-linux-gnueabihf-gcc -O3 -std=c99 -ggdb3 -march=armv7-a -marm \
  -pedantic -Wall -Wextra -o main.out main.c
qemu-arm -L /usr/arm-linux-gnueabihf main.out

反汇编包含:

   0x00010320 <+4>:     08 7b b7 ee     vmov.f64        d7, #120        ; 0x3fc00000  1.5
   0x00010324 <+8>:     00 0b b7 ee     vmov.f64        d0, #112        ; 0x3f800000  1.0
   0x00010328 <+12>:    00 7b 37 ee     vadd.f64        d7, d7, d0

在Ubuntu 16.04,GCC 5.4.0,QEMU 2.5.0中测试。

源代码定义点


2
投票

因为寄存器在AArch64中可以有多个名称(v0,b0,h0,s0,d0都指向同一个寄存器),所以必须在打印字符串中添加一个输出修饰符:

On Godbolt

float foo()
{
    float sum;
    asm volatile("fadd %s0, s3, s4" : "=w"(sum) : :);
    return sum;
}

double dsum()
{
    double sum;
    asm volatile("fadd %d0, d3, d4" : "=w"(sum) : :);
    return sum;
}

会产生:

foo:
        fadd s0, s3, s4 // sum
        ret     
dsum:
        fadd d0, d3, d4 // sum
        ret  

1
投票

"=r"是GP整数寄存器的约束。

The GCC manual声称"=w"是AArch64上FP / SIMD寄存器的约束。但是,如果你尝试,你得到v0而不是s0,它不会组装。我不知道这里的解决方法,您应该报告gcc bugzilla,手册中记录的约束对标量FP不起作用。

On Godbolt我试过这个来源:

float foo()
{
    float sum;
#ifdef __aarch64__
    asm volatile("fadd %0, s3, s4" : "=w"(sum) : :);   // AArch64
#else
    asm volatile("fadds %0, s3, s4" : "=t"(sum) : :);  // ARM32
#endif
    return sum;
}

double dsum()
{
    double sum;
#ifdef __aarch64__
    asm volatile("fadd %0, d3, d4" : "=w"(sum) : :);   // AArch64
#else
    asm volatile("faddd %0, d3, d4" : "=w"(sum) : :);  // ARM32
#endif
    return sum;
}

clang7.0(带有内置汇编程序)要求asm实际上有效。但是对于gcc我们只编译为asm,并且Godbolt没有非x86的“二进制模式”。

# AArch64 gcc 8.2  -xc -O3 -fverbose-asm -Wall
# INVALID ASM, errors if you try to actually assemble it.
foo:
    fadd v0, s3, s4 // sum
    ret     
dsum:
    fadd v0, d3, d4 // sum
    ret

clang生成相同的asm,其内置的汇编程序错误包括:

<source>:5:18: error: invalid operand for instruction
    asm volatile("fadd %0, s3, s4" : "=w"(sum) : :);
                 ^
<inline asm>:1:11: note: instantiated into assembly here
        fadd v0, s3, s4
             ^

在32位ARM上,=t"用于单个工作,但"=w" for(手册中说你应该用于双精度)也给你带有gcc的s0。但它与clang一起工作。你必须使用-mfloat-abi=hard-mcpu=与FPU,例如-mcpu=cortex-a15

# clang7.0 -xc -O3 -Wall--target=arm -mcpu=cortex-a15 -mfloat-abi=hard
# valid asm for ARM 32
foo:
        vadd.f32        s0, s3, s4
        bx      lr
dsum:
        vadd.f64        d0, d3, d4
        bx      lr

但是gcc失败了:

# ARM gcc 8.2  -xc -O3 -fverbose-asm -Wall -mfloat-abi=hard -mcpu=cortex-a15
foo:
        fadds s0, s3, s4        @ sum
        bx      lr  @
dsum:
        faddd s0, d3, d4        @ sum    @@@ INVALID
        bx      lr  @

所以你可以使用=t单一就好用gcc,但是对于double,大概你需要一个%something0修饰符来打印寄存器名称d0而不是s0,带有"=w"输出。


显然,如果添加约束来指定输入操作数,这些asm语句只对学习语法之外的任何内容都有用,而不是读取发生在s3和s4中的任何内容。

另见https://stackoverflow.com/tags/inline-assembly/info

© www.soinside.com 2019 - 2024. All rights reserved.