我的基准测试任务只是裁剪元素的值。我已经使用numpy
和polars
完成了这一点。但是,事实证明,使用numpy
比使用polars
快得多(约5倍)(如下所示)。
我的问题是
- 这种行为是否如预期的那样?
- 如果是这样,这是否意味着
polars
(尽管它针对join/groupby进行了高度优化)可能不适合执行相对简单的数值向量/数组操作,例如我的示例中的裁剪?
import timeit
import numpy as np
import polars as pl
N = 10_000_000
x = np.random.normal(size=N)
y = np.random.normal(size=N)
z = y + 0.5
df = pl.DataFrame({"x": x, "y": y, "z": z})
>>> timeit.timeit(lambda: np.minimum(np.maximum(x, y), z), number=10)
0.60923
>>> timeit.timeit(lambda: df.select(pl.min(pl.max(pl.col("x"), pl.col("y")), pl.col("z"))), number=10)
3.39337
1条答案
按热度按时间j9per5c41#
2023年4月25日更新
从
polars >= 0.17.8
开始,我们对其进行了更多的优化。现在更近了。我们的水平
min
操作并没有真正优化。如果你打开一个问题,我们可以改进它。我们的大部分优化注意力都集中在昂贵的操作上。看情况
回答你的问题,不,这取决于。
总的来说,极地可能更快;许多操作通常能够并行运行。如果你觉得它在某个方面太慢,那就开一个问题。