简单构造函数的复杂编译器输出

Question

我有一个带有两个64位整数成员的struct X和一个构造函数：

struct X
{
    X(uint64_t a, uint64_t b)
    {
        a_ = a; b_ = b;
    }

    uint64_t a_, b_;
};

当我查看编译器输出（x86-64 gcc 8.3和x86-64 clang 8.0.0，在64位Linux上），未启用优化时，我看到构造函数的以下代码。

x86-64 gcc 8.3：

X::X(unsigned long, unsigned long):
    push    rbp
    mov     rbp, rsp
    mov     QWORD PTR [rbp-8], rdi
    mov     QWORD PTR [rbp-16], rsi
    mov     QWORD PTR [rbp-24], rdx
    mov     rax, QWORD PTR [rbp-8]
    mov     QWORD PTR [rax], 0
    mov     rax, QWORD PTR [rbp-8]
    mov     QWORD PTR [rax+8], 0
    mov     rax, QWORD PTR [rbp-8]
    mov     rdx, QWORD PTR [rbp-16]
    mov     QWORD PTR [rax+8], rdx
    mov     rax, QWORD PTR [rbp-8]
    mov     rdx, QWORD PTR [rbp-24]
    mov     QWORD PTR [rax], rdx
    nop
    pop     rbp
    ret

x86-64 clang 8.0.0：

X::X(unsigned long, unsigned long):
    push    rbp
    mov     rbp, rsp
    mov     qword ptr [rbp - 8], rdi
    mov     qword ptr [rbp - 16], rsi
    mov     qword ptr [rbp - 24], rdx
    mov     rdx, qword ptr [rbp - 8]
    mov     qword ptr [rdx], 0
    mov     qword ptr [rdx + 8], 0
    mov     rsi, qword ptr [rbp - 16]
    mov     qword ptr [rdx + 8], rsi
    mov     rsi, qword ptr [rbp - 24]
    mov     qword ptr [rdx], rsi
    pop     rbp
    ret

有谁知道为什么输出如此复杂？我本来期望两个简单的“mov”语句，即使没有启用优化。

Answer 1

未优化的代码总是将所有C ++变量（包括函数args）存储到语句so that the values are available for the debugger to read and even modify之间的内存位置。（因为它没有花时间进行寄存器分配。）这包括在函数的第一个C ++语句之前将寄存器args存储到内存中。

这是来自gcc -masm=intel的Intel语法汇编，因此它使用目标，源顺序。（我们可以根据寄存器名称使用PTR，方括号和缺少%来判断。）

前3个存储是函数参数(this, a, b)，它们按照x86-64 System V ABI的调用约定在寄存器RDI，RSI和RDX中传递。

mov     QWORD PTR [rbp-8], rdi        # this
mov     QWORD PTR [rbp-16], rsi       # a
mov     QWORD PTR [rbp-24], rdx       # b

现在它将this加载到rax并将零写入a_和b_，因为您没有使用正确的构造函数初始化。或者您可能使用此处未显示的某些代码或奇数编译器选项将初始化添加到零。

mov     rax, QWORD PTR [rbp-8]
mov     QWORD PTR [rax], 0           # this->a_ = 0
mov     rax, QWORD PTR [rbp-8]
mov     QWORD PTR [rax+8], 0         # this->b_ = 0

然后它再次将this加载到rax并将a加载到rdx，然后用this->a_ aka rdx写a。 b再次相同。

等等，实际上必须首先写入b_然后写入a_，因为结构需要匹配声明和内存顺序。所以[rax+8]必须是b_，而不是a_。

mov     rax, QWORD PTR [rbp-8]
mov     rdx, QWORD PTR [rbp-16]        # reload a
mov     QWORD PTR [rax+8], rdx         # this->b_ = a
mov     rax, QWORD PTR [rbp-8]
mov     rdx, QWORD PTR [rbp-24]        # reload b
mov     QWORD PTR [rax], rdx           # this->a_ = b

所以你的asm与你问题中的C ++源不匹配。

Answer 2

What happens, and why?

如果不启用优化，编译器会将所有变量存储在堆栈中，编译器将返回堆栈中的所有值。这样做的原因是它使调试器更容易跟踪程序中发生的事情：它们可以观察程序的堆栈。

此外，每个函数都必须在函数输入时更新堆栈指针，并在退出函数时重置堆栈指针。这也是调试器的好处：调试器总能确切地告诉您何时输入函数或退出函数。

使用-O0的代码：

X::X(unsigned long, unsigned long):
    push    rbp        // Push the frame pointer to the stack
    mov     rbp, rsp   // Copy the frame pointer to the rsb register
    // Create the object (on the stack)
    mov     QWORD PTR [rbp-8], rdi  
    mov     QWORD PTR [rbp-16], rsi
    mov     QWORD PTR [rbp-24], rdx
    mov     rax, QWORD PTR [rbp-8]
    mov     rdx, QWORD PTR [rbp-16]
    mov     QWORD PTR [rax], rdx
    mov     rax, QWORD PTR [rbp-8]
    mov     rdx, QWORD PTR [rbp-24]
    mov     QWORD PTR [rax+8], rdx
    nop     // IDEK why it does this
    // Pop the frame pointer
    pop     rbp
    ret

使用-O1的代码：

X::X(unsigned long, unsigned long):
    mov     rax, rdi
    mov     rdx, rsi
    ret

Does this matter?

的种类。没有优化的代码要慢很多，特别是因为编译器必须做这样的事情。但是几乎没有理由不启用优化。

How to debug optimized code

gcc和clang都有-Og选项：此选项打开所有不干扰调试的优化。如果代码的调试版本运行缓慢，请尝试使用-Og进行编译。

使用-Og的代码：

X::X(unsigned long, unsigned long):
    mov     rax, rdi
    mov     rdx, rsi
    ret

Resources

有关-Og和其他使代码易于调试的选项的更多信息：https://gcc.gnu.org/onlinedocs/gcc/Debugging-Options.html

有关优化和优化选项的更多信息：https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html#Optimize-Options

Answer 3

正如其他人所评论的那样，编译器没有义务在你不要求它时优化你的代码，但很多低效率源于：

编译器将在寄存器中传递的参数溢出到函数入口处的堆栈上的保留区域（然后使用堆栈上的副本）
事实上，英特尔没有内存到内存的MOV指令

这两个因素相结合，为您提供了在反汇编中看到的代码（尽管clang明显比gcc更好地处理了事情）。

编译器将这些寄存器溢出到堆栈中以使调试更容易 - 因为它们在堆栈中，传递给函数的参数在整个函数中保持可用，这在调试时非常有用。此外，您可以在继续执行之前，在断点处为上述参数的新值修补，当您意识到它们的值实际应该是什么并希望继续调试会话时。

我不确定为什么两个编译器在你的反汇编中分配它们之前将a_和b_归零。我没有看到这个over at Godbolt。

简单构造函数的复杂编译器输出

问题描述投票：3回答：3

3个回答

What happens, and why?

Does this matter?

How to debug optimized code

Resources

最新问题

简单构造函数的复杂编译器输出

问题描述 投票：3回答：3

3个回答

What happens, and why?

Does this matter?

How to debug optimized code

Resources

最新问题

问题描述投票：3回答：3