我们正在将一个主要应用程序从Arm 32移植到Arm 64。我们的算法经常使用SSAT
和USAT
指令。它们执行任意大小的左移或右移,然后执行任意位数的有符号或无符号饱和。这对图像处理算法非常有用,因为我们可以执行一些数学运算,生成32位整数结果。然后用一条指令从其中获取我们需要的任何位(饱和到输出图像的位深度的最大/最小值)。
这些指令在Arm 64中莫名其妙地消失了,我们找到的最接近的替代指令是SQSHRN
/UQSHRN
/SQSHLN
/UQSHLN
,它们执行移位和饱和,但在饱和方面受到更多限制(USAT
可以饱和到任何宽度,甚至7位;新指令只能饱和到输入宽度的一半,例如在32位输入的情况下为16位,这将需要附加处理来实现所需结果)。
有人能解释一下为什么这些指令被删除,以及有效地移植使用它们的现有代码的最佳方法是什么?
2条答案
按热度按时间3j86kqsm1#
SIMD解决方案
我们先来看看签名版。
首先,ARM 64具有饱和移位的非窄化版本,其在全字长时饱和:可以通过左移在不同的位计数处饱和,使得期望的最高位变成字的最高位;移位计数也可以被偏移以合并你想要的初始左移位。然后右移位以返回。
例如,
ssat r0, #14, r1, lsl #3
的等价物可以通过下式得到:这是两条指令,而不是一条,但另一方面,你一次可以得到四个结果。在Cortex A-72上,这个序列应该有7个周期的延迟和每2个周期一个的吞吐量。(相比之下,在ARM 32模式下的同一芯片上,单个
ssat
具有2个周期的延迟和每个周期一个的吞吐量,因此如果我的计算正确,其中四个是5个周期的延迟和每4个周期一个的吞吐量)在使用内部函数的C语言中,我们会有
根据输入的大小,这些指令有常见的8x 16、16 x8、32 x4、64 x2版本。如果移位和饱和不是编译时常量,它们还可以在寄存器中而不是立即数中获取移位计数(额外费用:ARM 32
ssat
根本无法做到这一点。对于
usat
的等价物,使用sqshlu
,并将其逻辑右移ushr
。这复制了一个有点奇怪的行为,即尽管名称为“unsigned”,但usat
实际上将一个 signed 值饱和到0..INT_MAX
范围内,所有负输入都Map到0。如果需要真无符号饱和(0..UINT_MAX
),请使用uqshl
。(尽管实际上在这种情况下,shl / umin
可能更快。)为了饱和到其他任意范围(不一定是2的幂),我们有
smax/smin
和umax/umin
,但这样的移位是分开的。ccgok5k52#
我比较了这个汇编代码:
与此:
在32位设备上运行此--更新测试--时:
我得到了这些结果:
运行1000000个循环,平均时间reg:0.0210270
运行1000000个循环,平均组装时间:0.0057960