为什么GCC使用MOV而不是推入函数调用？

nwsw7zdq 于 2022-11-13 发布在其他

关注(0)|答案(3)|浏览(218)

我有一个C程序的例子。

int worship(long john)
{
    return 0 * john;
}

int main()
{
    return worship(666);
}

该程序集（基本上）如下所示：

worship(long):
    pushq   %rbp
    movq    %rsp, %rbp
    movq    %rdi, -8(%rbp)
    movl    $0, %eax
    popq    %rbp
    ret
main:
    pushq   %rbp
    movq    %rsp, %rbp
    movl    $666, %edi
    call    worship(long)
    popq    %rbp
    ret

我在阅读到堆栈粉碎时遇到了这个问题。在汇编代码worship(long):部分，它说movq %rdi, -8(%rbp)，我认为它应该使用pushq，这是GCC将参数推到堆栈上的新方法吗？如果是，有没有编译器标志可以用来切换这一点？

gcc

来源：https://stackoverflow.com/questions/22267767/why-is-gcc-using-mov-instead-of-push-in-function-calls

3条答案

按热度按时间

yks3o0rb1#

GCC manual说，

-mpush-args

推入指令将用于在调用函数时传递传出参数。默认情况下启用。

-mno-push-args

使用PUSH操作来存储传出参数。此方法较短，通常与使用SUB/MOV操作的方法一样快，并且默认情况下处于启用状态。在某些情况下，禁用此方法可能会提高性能，因为它改进了调度并减少了相关性。

-maccumulate-outgoing-args

如果启用，将在函数序言中计算传出参数所需的最大空间量。这在大多数现代CPU上更快，因为当首选堆栈边界不等于2时，依赖关系减少、调度改善和堆栈使用减少。缺点是代码大小明显增加。此开关隐含-mno-push-args。
即使默认启用-mpush-args，它也会被默认启用的-maccumulate-outgoing-args覆盖。编译时显式传递选项-mno-accumulate-outgoing-args可能会将指令更改为push。

赞(0）回复(0）举报 2022-11-13

toe950272#

x86-64 System V传递寄存器RDI、RSI、RDX、RCX、R8、R9中的前6个整数参数。因此，在main中，我们使用mov $666, %edi（零扩展到完整的RDI）来传递64位参数long john。
push无法写入寄存器; nothing 1可以阻止GCC使用mov来设置寄存器，您也不希望这样做。如果您传递了7个或更多参数，GCC通常会使用main中的push来传递堆栈上的第7个参数，因为-mno-accumulate-outgoing-args是现代GCC中的默认值。push在x86上一直很高效，因为Pentium-M等引入了一个“堆栈引擎”来跟踪堆栈-指针会专门更新。
Sunil Bojanapally的答案涵盖了这些选项，这些选项与32位代码更相关，因为32位代码中所有的参数都在堆栈上传递。如果您是通过搜索标题问题找到这里的，请查看该答案或 * Why does gcc use movl instead of push to pass function args? * 该答案是关于实际问题的，即关于被调用方在调试版本中如何处理传入的参数，而不是如何将参数传递给它。

你说的是被调用方内部的代码，它将传入的参数存储到堆栈中。这不是 * 传递 * 参数，它只是a consequence of a debug build-每个C变量都获得一个内存地址，除非用默认的-O0反优化级别声明register。编译器发出指令将传入的寄存器参数存储到堆栈中。

在这种情况下，movq %rdi, -8(%rbp)被存储到RSP下面的red zone，因为worship()是叶函数。堆栈空间已经被有效地保留（下至-128(%rsp)，并且在该点RBP=RSP）。
需要说明的是，这不是函数 * 调用*. Spilling incoming args to the stack inside the callee only happens in a debug build的一部分，也不是调用约定的一部分。
如果它需要sub $16, %rsp/mov-store /leave，例如，如果你用-mno-red-zone编译，那么是的，用push %rdi做溢出可能是一种优化。但是existing compilers don't do that optimization用于初始化+创建局部变量。
worship中的push %rdi会要求编译器使用leave，而不是只使用pop %rbp，这会稍微增加开销。并且在push %rbp将堆栈对齐到RSP%16 == 0之后，它只会将堆栈对齐到RSP%16 == 8;编译器倾向于使堆栈按16对齐，即使它们不再进行函数调用。

当然，如果您刚刚启用了优化，worship将只是xor %eax,%eax/ret，而不会浪费指令将寄存器参数放在任何地方。
脚注1：-Oz个（支持代码大小，不考虑速度）可能会使用3字节push imm8/pop rdi而不是5字节mov edi, imm32来具体化寄存器中的值（如果该值在-128..+127范围内）。但666不是这样，因此mov也是将寄存器设置为该值的最小方式，而没有任何预先存在的已知寄存器值接近该值。（代码golf x86-64机器代码提示）。