assembly 如何使用AVX-512实现向量化“exp”和“log”base-2函数

p3rjfoxz 于 2023-05-23 发布在其他

关注(0)|答案(1)|浏览(154)

对于一个游戏，我的工作-需要的能力，以运行百万的“exp”调用向量。基本上

void vector_exp(const double *x, const double *result, int n)
{
    for (int i=0 ; i<n ; i++) result[i] = exp(x[i]) ;
}

对于我的特定情况，输入都是-50..+50。需要双精度，8位小数匹配当前“exp”-以通过测试用例。
我对“日志”也有同样的挑战。输入范围为1 e-7至1 e7。
希望利用AVX 512指令-这应该能够做（理论上）8倍精度的时间。我已经检索到了glibc代码（包括为AVX构建的“C”版本和“.S”版本），但我不确定如何继续前进。
https://github.com/bminor/glibc/tree/master/sysdeps/x86_64/fpu

assembly

来源：https://stackoverflow.com/questions/76298129/how-to-implement-vectorize-exp-and-log-base-2-functions-using-avx-512

1条答案

按热度按时间

qyyhg6bp1#

我相信其他的答案比我的好-运行一个非常快速和肮脏的多项式近似，我最终得到了这些。

inline __m512d exp2(const __m512d x) {
    const __m512d a = _mm512_set1_pd(0.000217549227054);
    const __m512d b = _mm512_set1_pd(0.00124218531444);
    const __m512d c = _mm512_set1_pd(0.00968102455999);
    const __m512d d = _mm512_set1_pd(0.0554821818101);
    const __m512d e = _mm512_set1_pd(0.240230073528);
    const __m512d f = _mm512_set1_pd(0.693146979806);
    const __m512d g = _mm512_set1_pd(1.0);
    const __m512d fx = _mm512_floor_pd(x);  // integer part
    const __m512d X = _mm512_sub_pd(x, fx); // fractional part
    __m512d y = _mm512_fmadd_pd(a, X, b);
    y = _mm512_fmadd_pd(y, X, c);
    y = _mm512_fmadd_pd(y, X, d);
    y = _mm512_fmadd_pd(y, X, e);
    y = _mm512_fmadd_pd(y, X, f);
    y = _mm512_fmadd_pd(y, X, g);      // polynomial approximation over [0,1)
    return _mm512_scalef_pd(y, fx);    // scale by 2^integer
}

inline __m512d exp(const __m512d x) {
    return exp2(_mm512_mul_pd(x, _mm512_set1_pd(1.442695040888963387)));
}

inline __m512d log2(const __m512d x) {
    const __m512d m = _mm512_getmant_pd(x, _MM_MANT_NORM_1_2, _MM_MANT_SIGN_zero);
    const __m512d a = _mm512_set1_pd(0.0146498917256);
    const __m512d b = _mm512_set1_pd(-0.178725976271);
    const __m512d c = _mm512_set1_pd(0.953841083567);
    const __m512d d = _mm512_set1_pd(-2.92298892586);
    const __m512d e = _mm512_set1_pd(5.68725545823);
    const __m512d f = _mm512_set1_pd(-7.4092580291);
    const __m512d g = _mm512_set1_pd(7.09194627711);
    const __m512d h = _mm512_set1_pd(-3.23671917705);
    __m512d y = _mm512_fmadd_pd(a, m, b);
    y = _mm512_fmadd_pd(y, m, c);
    y = _mm512_fmadd_pd(y, m, d);
    y = _mm512_fmadd_pd(y, m, e);
    y = _mm512_fmadd_pd(y, m, f);
    y = _mm512_fmadd_pd(y, m, g);
    y = _mm512_fmadd_pd(y, m, h);  // poly approximation over [1,2) mantissa
    return _mm512_add_pd(y, _mm512_getexp_pd(x));
}

inline __m512d log(const __m512d x) {
    return _mm512_mul_pd(log2(x), _mm512_set1_pd(0.693147180559945286));
}

跨独立的exp2()或log2()操作的乱序执行可以使用六阶多项式的霍纳规则来处理FMA依赖链。
另请参阅Agner Fog的VCL实现，其目标是高精度，接近double的全精度：

双精度exp_d模板，支持2.0、exp(x-1)与exp(x)。（有关正确的模板参数，请参阅exp2调用程序）。

使用13阶泰勒级数，代码中的注解表明它比使用Pade展开的替代版本更快：两个多项式之比。对于吞吐量来说，每多个FMA进行一次除法并不是一个灾难，特别是如果你有很多周围的代码也对每个结果进行一些非除法工作，但是这样做可能会使每个FMA进行太多的除法。

双精度log_d模板。这确实使用了尾数的5阶多项式的比率。模板参数支持log(x)与log(x+1)以避免丢失精度。它只做自然对数（基数为e），因此您需要将结果缩放1/ln(2)。

赞(0）回复(0）举报 2023-05-23

我来回答

assembly 如何使用AVX-512实现向量化“exp”和“log”base-2函数

1条答案

相关问题

热门标签

最新问答