程序集cltq和movslq的区别

问题描述 投票:7回答:1

Computer Systems A Programmer's Perspective(第2版)的第3章提到了这一点 cltq相当于movslq %eax, %rax

为什么他们创建一个新指令(cltq)而不是仅仅使用movslq %eax,%rax?这不是多余的吗?

assembly x86 x86-64 att instruction-set
1个回答
19
投票

TL; DR:尽可能使用cltq,因为它比完全等效的movslq %eax, %rax短一个字节。这是一个非常小的优势(所以不要为了实现这一点而牺牲任何其他东西)但是如果你想要签署扩展它,那么选择eax

这主要与编译器编写器相关(编译有符号整数循环计数器索引数组);每次迭代时签名扩展循环计数器之类的东西只发生在编译器无法利用未定义行为的带符号溢出来避免它时。人类程序员将只决定签名与未签名以保存指令。


相关:对于在RAX(cltq)内签名扩展的不同大小的指令,或从EAX到EDX:EAX(cltd)的指令不同大小的英特尔与AT&T助记符完全相同,使用等效的movsx / movs?t?What does cltq do in assembly?


历史

实际上,32-> 64位形式的MOVSX(在AT&T语法中称为movslq)是AMD64的新版本。英特尔语法助记符实际上是MOVSXD。操作码是63 /r(所以它的3个字节包括必要的REX前缀,而8-> 64或16-> 64 MOVSX则为4个字节)。 AMD重新调整了ARPL的操作码,这种操作码在64位模式下不存在。

要了解历史记录,请记住当前的x86并非全部设计。首先是16位8086,根本没有MOVSZ / MOVZX,只有CBW和CWD。然后386添加了MOVS / ZX(以及更广泛的CBW / CWD版本,用于在eax或edx中进行符号扩展)。然后AMD将所有这些扩展到64位。

现有MOVSX操作码的REX版本仍然具有8或16位源,但是符号一直扩展到64位而不是32位。操作数大小前缀允许您编码movsbw,也就是movsx r16, r/m8。 IDK如果同时使用操作数大小前缀和REX.W会发生什么。或者如果你使用操作数大小的前缀和MOVSX的16位源格式会发生什么。可能它只是一种编码MOV的昂贵方式,比如使用没有REX前缀的63 /r(英特尔的insn设置手册建议不要这样做)。


cltqaka CDQE)是使用REX.W前缀扩展现有cwtl(aka CWDE)以将操作数大小提升到64位的明显方法。 cbtw(又名CBW)的原始形式是在8086年,早于MOVSX,并且是签署任何东西的唯一理智方式。由于立即计数> 1 were a 286 feature,最不好的其他选项似乎是mov ah, al / mov cl, 7 / sar ah, cl将符号位广播到所有位置。

另外,不要混淆cwtlcwtdaka CWD:符号扩展ax到dx:ax,例如设置为idiv)。

这里的AT&T助记符非常糟糕。 l对阵d,真的吗?英特尔助记符最终都有e用于扩展到rax内的那些,而不是扩展到(部分)rdx的那些。除了CBW,但当然,它延伸到ax,因为即使8086有16位寄存器,所以永远不需要在dl:al中存储16位值。 idiv r/m8使用ax作为源reg,而不是dl:al(并将结果放入ah,al))。


裁员

是的,这是x86汇编语言中的许多冗余之一。例如sub eax,eax对阵rax vs xor eax,eax。 (mov eax,0不是完全冗余的,因为它不会影响标志。如果你包含那些冗余的细微差别,甚至是在不同执行端口上运行的指令,那么有很多方法可以做一些事情。)。

如果我有机会修改x86-64 ISA,我可能会给MOVZX和MOVSX单字节操作码(而不是0F XX双字节转义操作码),至少是8位源版本。所以movsx eax, byte [mem]会像mov al, [mem]一样紧凑。 (它们在Intel CPU上的性能已经相同:完全在加载端口处理,没有ALU uop)。大多数真正的代码都没有利用[u]int16_t数组来获得更高的缓存密度,因此我认为从word到dword或qword的movs / zx更少见。或者也许有足够的宽字符代码来证明MOVZX r32/r64, r/m16更短的操作码。为了腾出一些空间,我们可以完全放弃CBW / CWDE / CDQE操作码。我可能会将CWD / CDQ / CQO作为idiv的有用设置,它没有单指令。

实际上,可能具有更少的单字节操作码和更多的转义前缀将更有用(例如,这种常见的SSE2 insn可以是2个操作码字节+ ModRM,而不是通常的3或4个操作码字节)。在高性能环路中,指令解码不再是瓶颈,而是指令更短。但如果x86-64机器代码与32位太不相同,我们需要额外的解码晶体管。现在可能没问题,因为功率限制使得dark silicon成为一种东西,因为核心永远不需要在其64位解码器的同时启动其32位解码器。 AMD设计AMD64的情况并非如此。 (错误,超线程在32位和64位运行的逻辑线程之间交替循环会阻止您完全关闭,如果它们是分开的。)

我们可以使用非破坏性目的地制作双操作数移位指令而不是CDQ,因此sar edx, eax, 31将以3个字节执行CDQ。丢弃单字节xchg-with-eax操作码(除了0x90 xchg eax,eax NOP)将为sar, shr, shl释放大量编码空间,而不需要ModRM的Reg字段作为额外的操作码位。当然,删除shift_count = 0的NOT-affect-flags特殊情况,以消除对FLAGS的输入依赖性)。

(我也将setcc r/m8更改为setcc r/m32。或者可能是setcc r32/m8。(内存dst无论如何都使用单独的ALU uop,所以它可以解码为setcc tmp32并存储其中的低8)。它几乎总是被xor-zeroing使用目的地,你必须兼顾标志设置。)

AMD有机会用AMD64做(部分),但选择保守分享尽可能多的指令解码晶体管。 (不能真的对它们造成错误,但不幸的是,政治/经济环境导致x86错过了在可预见的未来放弃一些传统包袱的唯一机会。)这也意味着修改代码生成/分析软件的工作量减少了,但这是一次性成本和小土豆相比,可能使每个x86-64 CPU运行速度更快,并且具有更小的二进制文件。


另请参阅标记wiki以获取更多链接,包括this old appendix from the NASM manual记录何时引入每种形式的每条指令。

相关:MOVZX missing 32 bit register to 64 bit register

© www.soinside.com 2019 - 2024. All rights reserved.