这个程序集项目读取按键并以特定的颜色输出。当一个元音被按下时,它会改变文本的颜色,直到另一个元音被按下,并且直到ESC被按下。颜色是在一个特定的模式中,这就是为什么当它到达循环的结尾时I sub colorCode, 8
。我只是想让它更有效率。我尝试将所有比较语句放在一行中,但没有成功。
INCLUDE Macros.inc
INCLUDE Irvine32.inc
INCLUDELIB Irvine32.lib
.386
.STACK 4096
ExitProcess PROTO, dwExitCode:DWORD
.DATA
key BYTE ?
colorCode BYTE 5
max BYTE 13
.CODE
main PROC
FindKey:
mov EAX, 50
call Delay
call ReadKey
jz FindKey
MOV key, AL
cmp key, 75h
JE UP
CMP key, 6Fh
JE UP
CMP key, 69h
JE UP
CMP key, 65h
JE UP
CMP key, 61h
JE UP
CMP key, 55h
JE UP
CMP key, 4Fh
JE UP
CMP key, 49h
JE UP
CMP key, 45h
JE UP
CMP key, 41h
JE UP
CMP dx,VK_ESCAPE
JE OVER
COLOR:
MOVZX EAX, (black * 16) + colorCode
CALL SetTextColor
MOV AL, key
call WriteChar
jmp FindKey
UP:
CMP colorCode, 13
JE RESET
INC colorCode
jmp COLOR
RESET:
sub colorCode, 8
jmp COLOR
OVER:
CALL Crlf
INVOKE ExitProcess, 0
main ENDP
END main
1条答案
按热度按时间gr8qqesn1#
如果你对高效的x86代码感兴趣,请查看x86标签wiki中的链接。这里有很多好东西,尤其是Agner Fog的指南。
AL
中有key
,但cmp
指令都使用内存操作数。cmp al, imm8
有一个特殊的操作码,因此cmp al, 75h
只是一个2字节指令。使用绝对位移来寻址key
会使指令长 * 很多 *。此外,cmp mem,imm
不能使用条件跳转进行宏融合。并且每个insn都需要加载端口。代码的其余部分看起来像是过多地使用了内存操作数,而且缩进得很奇怪(
UP
看起来像是COLOR
块的一部分,但实际上在COLOR
的末尾有一个无条件跳转,所以它不属于UP
)。当然,一长串的
cmp/je
并不是最优的,因为所有的je
目标都是相同的,你不需要找出 * 哪个 * 键实际上匹配。您可以使用的一种策略是检查
al
是否在正确的范围内,然后将其用作位图的索引。编译器对
switch
或多条件if
使用这种策略**(Godbolt编译器资源管理器)**。这就是为什么我们大多数时候使用编译器而不是手动编写asm的原因:他们知道很多聪明的技巧,并且可以在适用的地方应用它们。我们为开关获得了1<<c
,但是if
实际上用GCC编译成了bt
。(不过GCC 9有一个回归,开关编译成了一个跳转表。)有关无符号比较技巧(
ja .non_alphabetic
)的说明和高效循环的示例,请参见my answer on another ASCII question。或者,如果您想 count 元音,则使用
adc edx, 0
或其他方法将CF添加到寄存器,而不是分支。(
bt
屏蔽了它的输入,只使用低位作为“移位计数”,所以你并不真正需要movzx
。但是如果你确实需要避免在旧的Intel CPU(在Sandybridge之前)上出现部分寄存器暂停,请使用movzx edx, al
而不是movzx eax, al
。这将在更新的Intel CPU上对性能的影响更小:mov-elimination只适用于不同的寄存器,但它仍然会为前端增加一个uop。)这显著减少了指令数量和分支数量,因此使用的分支预测项也更少。
不保留内存中的常数
bt
:bt mem,reg
速度慢是因为存在疯狂的CISC语义,如果位索引大于操作数大小,它可以访问不同的地址。仅当bt
与寄存器第一个操作数一起使用时,它才会屏蔽位索引。bt
的替代方法是执行if(mask & 1 << (key - 'a'))
:尽管
test/jnz
可以进行宏融合,但这会导致更多的微操作,因为在英特尔Sandbridge系列CPU上,可变计数移位是3个微操作。(同样,疯狂的CISC语义会降低速度)。或者将掩码右移,而不是创建
1<<c
。您甚至可以通过将掩码右移1位来跳过test al,1
,这样您要分支的位就通过shr
移位到CF * 中。但在Nehalem和更早版本中,阅读可变计数移位的标志结果会使 * 前端 * 暂停,直到移位从后端 * 退出 * 为止,在SnB系列上,可变计数移位仍然需要3个微操作。由于评论正在讨论SSE:
字节广播(SSSE 3
pshufb
或AVX 2vpbroadcastb
)而不是双字广播(pshufd
)可以避免使用imul
。或者在广播之前使用or eax,0x20
,这样我们就不需要每个元音的大写和小写版本,然后我们可以用movd
+punpcklbw
+pshufd
或者类似的字符来广播。这需要从内存中加载一个常量,而不是一个32位位图,它可以有效地作为指令流中的立即数,因此即使它只有一个分支,这可能也不是很好。(记住,位图版本需要在非字母上分支,然后在元音上分支)。