numpy 多处理,池产生太多线程

6jjcrrmo  于 2023-08-05  发布在  其他
关注(0)|答案(1)|浏览(87)

如果我运行下面的python代码

def dummy(t):
    A = np.random.rand(10000, 10000)
    inv = np.linalg.inv(A)
    return np.linalg.norm(inv)

if __name__ == "__main__":
    with multiprocessing.Pool(2) as pool:
        print(pool.map(dummy, range(20)))

字符串
多于指定的2个进程被派生,或者至少看起来是这样。更具体地说,当我使用htop监视系统时,它显示所有线程都很忙碌,即:100%的CPU使用率。我希望只有2个线程显示100%的使用率,但也许这个假设是错误的。
奇怪的是,如果矩阵的大小增加(增加10倍),只有2个指定的线程是忙碌的。
使用的python版本:3.6.9 / 3.8.5。机器:40核的skylake服务器。

zsbz8rwp

zsbz8rwp1#

正如@Booboo的评论所暗示的那样,该示例包含未考虑的额外并行性。numpy.linalg.inv调用很可能在后台使用了某种多线程。因此,只有与Pool构造函数中指定的进程数一样多的硬件线程的假设是无效的。如果附加并行性的来源是已知的并且可以被禁用,则可以实现预期的行为。
This answer包含有关如何限制numpy可用线程数的说明。如果您有更高级别的并行源,这可能会给予性能优势。请注意,在导入numpy之前,只能通过环境变量全局完成,而不是基于每个函数。

相关问题