我的问题是,当变量nn没有volatile标识符时,我得到了错误的结果,但是当我向nn添加volatile标识符时,我得到了正确的结果。当我添加volatile时会发生什么?我的错误代码如下:
int size = outw * outh;
(volatile)int nn = size >> 2;
int remain = size & 3;
float32x4_t _bias0 = bias ? vld1q_f32(&bias[p]) : vdupq_n_f32(0.0f);
int chanel_offset=in_channel_offset*4;
int kernel_offset=inch*4;
if (nn > 0)
{
// fprintf(stderr, "%s %d\n", __FILE__, __LINE__);
asm volatile(
"add r0, %[kernel0], %[kernel_offset] \n"
"vld1.f32 {d0-d3}, [%[kernel0]] \n"
"vld1.f32 {d4-d7}, [r0] \n"
"add r0, r0, %[kernel_offset] \n"
"vld1.f32 {d8-d11}, [r0] \n"
"add r0, r0, %[kernel_offset] \n"
"vld1.f32 {d12-d15}, [r0] \n"
"add r1, %[r0], %[channel_offset] \n"
"pld [%[r0], #128] \n"
"vld1.f32 {q13}, [%[r0] :128]! \n" // q13 = r0
"pld [r1, #128] \n"
"vld1.f32 {q14}, [r1 :128] \n" // q14 = r1
"pld [%[outptr0], #128] \n"
"vdup.32 q9, %e[_bias0][0] \n"
"pld [%[outptr1], #128] \n"
"vdup.32 q10, %e[_bias0][1] \n"
"0: \n"
"vmla.f32 q9, q13, d0[0] \n"
"vmla.f32 q10, q13, d4[0] \n"
"add r1, r1, %[channel_offset] \n"
"pld [%[outptr2], #128] \n"
"vdup.32 q11, %f[_bias0][0] \n"
"vmla.f32 q9, q14, d0[1] \n"
"vmla.f32 q10, q14, d4[1] \n"
"pld [%[outptr3], #128] \n"
"vdup.32 q12, %f[_bias0][1] \n"
"vmla.f32 q11, q13, d8[0] \n"
"vmla.f32 q11, q14, d8[1] \n"
"pld [r1, #128] \n"
"vld1.f32 {q15}, [r1 :128] \n" // q15 = r2
"vmla.f32 q12, q13, d12[0] \n"
"vmla.f32 q12, q14, d12[1] \n"
"add r1, r1, %[channel_offset] \n"
"vmla.f32 q9, q15, d1[0] \n"
"vmla.f32 q10, q15, d5[0] \n"
"pld [r1, #128] \n"
"vld1.f32 {q13}, [r1 :128] \n" // q13 = r3
"vmla.f32 q11, q15, d9[0] \n"
"vmla.f32 q12, q15, d13[0] \n"
"add r1, r1, %[channel_offset] \n"
"vmla.f32 q9, q13, d1[1] \n"
"vmla.f32 q10, q13, d5[1] \n"
"pld [r1, #128] \n"
"vld1.f32 {q14}, [r1 :128] \n" // q14 = r4
"vmla.f32 q11, q13, d9[1] \n"
"add r1, r1, %[channel_offset] \n"
"vmla.f32 q12, q13, d13[1] \n"
"pld [r1, #128] \n"
"vld1.f32 {q15}, [r1 :128] \n" // q15 = r5
"vmla.f32 q9, q14, d2[0] \n"
"vmla.f32 q10, q14, d6[0] \n"
"add r1, r1, %[channel_offset] \n"
"pld [%[r0], #128] \n"
"vld1.f32 {q13}, [%[r0] :128] \n" // q13 = r0
"vmla.f32 q11, q14, d10[0] \n"
"vmla.f32 q12, q14, d14[0] \n"
"pld [r1, #128] \n"
"vld1.f32 {q14}, [r1 :128] \n" // q14 = r6
"vmla.f32 q9, q15, d2[1] \n"
"vmla.f32 q10, q15, d6[1] \n"
"add r1, r1, %[channel_offset] \n"
"vmla.f32 q11, q15, d10[1] \n"
"vmla.f32 q12, q15, d14[1] \n"
"pld [r1, #128] \n"
"vld1.f32 {q15}, [r1 :128] \n" // q15 = r7
"vmla.f32 q9, q14, d3[0] \n"
"vmla.f32 q10, q14, d7[0] \n"
"add r1, %[r0], %[channel_offset]\n"
"vmla.f32 q11, q14, d11[0] \n"
"vmla.f32 q12, q14, d15[0] \n"
"add %[r0], %[r0], #16 \n"
"vmla.f32 q9, q15, d3[1] \n"
"vmla.f32 q10, q15, d7[1] \n"
"pld [r1, #128] \n"
"vld1.f32 {q14}, [r1 :128] \n" // q14 = r1
"vst1.f32 {q9}, [%[outptr0] :128]! \n"
"vst1.f32 {q10}, [%[outptr1] :128]! \n"
"vmla.f32 q11, q15, d11[1] \n"
"vmla.f32 q12, q15, d15[1] \n"
"subs %[nn], #1 \n"
"pld [%[outptr0], #128] \n"
//"vld1.f32 {q9}, [%0 :128] \n" // q9 = outptr0
"vdup.32 q9, %e[_bias0][0] \n"
"pld [%[outptr1], #128] \n"
//"vld1.f32 {q10}, [%1 :128] \n" // q10 = outptr1
"vdup.32 q10, %e[_bias0][1] \n"
"vst1.f32 {q11}, [%[outptr2] :128]! \n"
"vst1.f32 {q12}, [%[outptr3] :128]! \n"
"bne 0b \n"
"sub %[r0], #16 \n"
: [outptr0] "+r"(outptr0),
[outptr1] "+r"(outptr1),
[outptr2] "+r"(outptr2),
[outptr3] "+r"(outptr3),
[r0] "+r"(r0),
[channel_offset] "+r"(chanel_offset)
: [nn] "r"(nn),
[kernel0] "r" (kernel0),
[kernel_offset] "r" (kernel_offset),
[_bias0] "w" (_bias0)
: "cc", "memory", "r0", "r1", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
"q9", "q10", "q11", "q12", "q13", "q14", "q15");
}
上面的代码用输入内核,r0和偏差(内核* r0 +偏差)计算结果outprt0,outptr1,outptr2,outptr3。
您正在修改输入操作数,对编译器说谎。
volatile int nn
使编译器每次都从内存重新加载它,而不是在asm
语句之后使用应该仍然在寄存器中的值,该语句承诺编译器[nn] "r" (nn)
是输入(只读)操作数。
但是你的代码有"subs %[nn], #1
。
使用"+r"
约束(qartxswpoi的副本)。
nn
或者使用具有匹配约束的虚拟输出,例如
int nn_tmp = nn; // the asm destroys this copy
asm ("..." : [nn] "+r"(nn_tmp) : ...);
其中int dummy;
asm ("..." : "=r"(dummy) : [nn] "0" (nn) : ...);
是虚拟输出的操作数。
你可以在asm中以某种方式保存/恢复"0"
,但这几乎总是比让编译器在需要时重新实现%[nn]
更糟糕。
你通常不需要nn
,除非你正在使用指针输入并使用asm volatile
clobber,所以一些输出不在"memory"
或"=m"
的约束中告诉它整个数组或通过该指针访问的任意大小是RMW操作数。
在你的情况下,内存崩溃可能是最容易的,并且编译器可能很少有空间展开这个语句或CSEing使用相同的输入多次运行它。如果所有输出都未使用,则将其优化掉。
Tom是正确的,volatile关键字提示您的编译器不应该优化您的操作。在变量声明中,volatile告诉编译器不要优化对该变量的读/写。
您的编译器似乎对其优化具有攻击性,因此如果您为其提供任何分支以避免内联汇编,它将执行此操作。 C编译器非常擅长优化c,但我不确定他们在优化C和散布的复杂装配方面有多好。
这段代码片段没有编译,你还没有给出编译器,所以我不再深入研究。
我会将你的工作示例插入到[dummy_in_out] "+m"( *(float (*)[]) my_array)
中,并在添加和删除volatile时对其进行优化。