assembly 哪里的代码可以更有效地检查输入的字符是否是元音?

ibps3vxo  于 2022-11-13  发布在  其他
关注(0)|答案(1)|浏览(162)

这个程序集项目读取按键并以特定的颜色输出。当一个元音被按下时,它会改变文本的颜色,直到另一个元音被按下,并且直到ESC被按下。颜色是在一个特定的模式中,这就是为什么当它到达循环的结尾时I sub colorCode, 8。我只是想让它更有效率。我尝试将所有比较语句放在一行中,但没有成功。

INCLUDE        Macros.inc
INCLUDE     Irvine32.inc
INCLUDELIB  Irvine32.lib
.386
.STACK 4096
ExitProcess PROTO, dwExitCode:DWORD

.DATA
key       BYTE ?     
colorCode BYTE 5
max       BYTE 13

.CODE
main PROC

FindKey:
mov EAX, 50
call Delay

call ReadKey 
jz FindKey

MOV key, AL 
     cmp key, 75h
     JE UP
     CMP key, 6Fh
     JE UP
     CMP key, 69h
     JE UP
     CMP key, 65h
     JE UP
     CMP key, 61h
     JE UP
     CMP key, 55h
     JE UP
     CMP key, 4Fh
     JE UP
     CMP key, 49h
     JE UP
     CMP key, 45h
     JE UP
     CMP key, 41h
     JE UP
     CMP dx,VK_ESCAPE
     JE OVER

     COLOR:   
          MOVZX EAX, (black * 16) + colorCode
          CALL SetTextColor 
          MOV AL, key
          call WriteChar
          jmp FindKey

          UP: 
               CMP colorCode, 13
               JE RESET
               INC colorCode
               jmp COLOR
               
               RESET:
                    sub colorCode, 8
                    jmp COLOR    
               
     OVER:
     CALL Crlf
     INVOKE ExitProcess, 0
     
main ENDP
END main
gr8qqesn

gr8qqesn1#

如果你对高效的x86代码感兴趣,请查看x86标签wiki中的链接。这里有很多好东西,尤其是Agner Fog的指南。
AL中有key,但cmp指令都使用内存操作数。cmp al, imm8有一个特殊的操作码,因此cmp al, 75h只是一个2字节指令。使用绝对位移来寻址key会使指令长 * 很多 *。此外,cmp mem,imm不能使用条件跳转进行宏融合。并且每个insn都需要加载端口。
代码的其余部分看起来像是过多地使用了内存操作数,而且缩进得很奇怪(UP看起来像是COLOR块的一部分,但实际上在COLOR的末尾有一个无条件跳转,所以它不属于UP)。
当然,一长串的cmp/je并不是最优的,因为所有的je目标都是相同的,你不需要找出 * 哪个 * 键实际上匹配。

您可以使用的一种策略是检查al是否在正确的范围内,然后将其用作位图的索引。

编译器对switch或多条件if使用这种策略**(Godbolt编译器资源管理器)**。这就是为什么我们大多数时候使用编译器而不是手动编写asm的原因:他们知道很多聪明的技巧,并且可以在适用的地方应用它们。我们为开关获得了1<<c,但是if实际上用GCC编译成了bt。(不过GCC 9有一个回归,开关编译成了一个跳转表。)
有关无符号比较技巧(ja .non_alphabetic)的说明和高效循环的示例,请参见my answer on another ASCII question

MOV   [key], AL    ; store for later use

    or    al,  20h     ; lowercase (assuming an alphabetic character)
    sub   al, 'a'      ; turn the ascii encoding into an index into the alphabet
    cmp   al, 'z'
    ja  .non_alphabetic

    mov   ecx, (1<<('a'-'a')) | (1<<('e'-a')) | (1<<('i'-a')) | (1<<('o'-a')) | (1<<('u'-a'))   ; might be good to pull this constant out and use an EQU to define it
    ; movzx eax, al    ; unneeded except for possible performance issues on old Intel CPUs (P6 family partial-register stuff).
    bt    ecx, eax      ; test for the letter being set in the bitmap
    jc  UP              ; jump iff al was a vowel
.non_alphabetic:
    CMP dx,VK_ESCAPE    ; this test could be first.
    JE OVER

或者,如果您想 count 元音,则使用adc edx, 0或其他方法将CF添加到寄存器,而不是分支。
bt屏蔽了它的输入,只使用低位作为“移位计数”,所以你并不真正需要movzx。但是如果你确实需要避免在旧的Intel CPU(在Sandybridge之前)上出现部分寄存器暂停,请使用movzx edx, al而不是movzx eax, al。这将在更新的Intel CPU上对性能的影响更小:mov-elimination只适用于不同的寄存器,但它仍然会为前端增加一个uop。)
这显著减少了指令数量和分支数量,因此使用的分支预测项也更少。
不保留内存中的常数btbt mem,reg速度慢是因为存在疯狂的CISC语义,如果位索引大于操作数大小,它可以访问不同的地址。仅当bt与寄存器第一个操作数一起使用时,它才会屏蔽位索引。
bt的替代方法是执行if(mask & 1 << (key - 'a'))

movzx ecx, al      ; avoid partial-reg stall or false dep on ecx that you could get with mov ecx,eax or mov cl,ca respectively
    mov   eax, 1
    shl   eax, cl      ; eax has a single set bit, at the index
    test  eax, 1<<('a'-'a') | 1<<('e'-a') | 1<<('i'-a') | 1<<('o'-a') | 1<<('u'-a')
    jnz  .vowel

尽管test/jnz可以进行宏融合,但这会导致更多的微操作,因为在英特尔Sandbridge系列CPU上,可变计数移位是3个微操作。(同样,疯狂的CISC语义会降低速度)。
或者将掩码右移,而不是创建1<<c。您甚至可以通过将掩码右移1位来跳过test al,1,这样您要分支的位就通过shr移位到CF * 中。但在Nehalem和更早版本中,阅读可变计数移位的标志结果会使 * 前端 * 暂停,直到移位从后端 * 退出 * 为止,在SnB系列上,可变计数移位仍然需要3个微操作。
由于评论正在讨论SSE:

; broadcast the key to all positions of an xmm vector, and do a packed-compare against a constant
    ; assuming  AL is already zero-extended into EAX
    imul    eax, eax, 0x01010101    ; broadcast AL to EAX
    movd    xmm0, eax
    pshufd  xmm0, xmm0, 0    ; broadcast the low 32b element to all four 32b elements
    pcmpeqb xmm0, [vowels]   ; byte elements where key matches the mask are set to -1, others to 0
    pmovmskb eax, xmm0
    test    eax,eax
    jnz   .vowel

section .rodata:
  align 16
  vowels: db 'a','A', 'e','E'
          db 'i','I', 'o','O'
          db 'u','U', 'a','a'
    times 4 db 'a'            ; filler out to 16 bytes avoiding false-positives

字节广播(SSSE 3 pshufb或AVX 2 vpbroadcastb)而不是双字广播(pshufd)可以避免使用imul。或者在广播之前使用or eax,0x20,这样我们就不需要每个元音的大写和小写版本,然后我们可以用movd + punpcklbw + pshufd或者类似的字符来广播。
这需要从内存中加载一个常量,而不是一个32位位图,它可以有效地作为指令流中的立即数,因此即使它只有一个分支,这可能也不是很好。(记住,位图版本需要在非字母上分支,然后在元音上分支)。

相关问题