Spark提供了几种不同的方法来实现UDFs that consume and return Pandas DataFrames,我目前使用的是co-grouped版本,它将两个(co-grouped)Pandas DataFrame作为输入,并返回第三个。
为了在Spark DataFrames和Pandas DataFrames之间进行高效转换,Spark使用Apache Arrow内存布局,但是在Arrow和Pandas之间来回转换仍然需要转换。我真的很想直接访问Arrow数据,因为这是我最终处理UDF中数据的方式(使用Polars)。
从Spark-〉箭头-〉Pandas-〉箭头(极地)在进入的路上和相反的返回似乎是浪费。
1条答案
按热度按时间wi3ka0sx1#
第一个