pyspark Spark apply()上的Pandas似乎正在重塑列

qyzbxkaa  于 2023-05-16  发布在  Spark
关注(0)|答案(1)|浏览(111)

谁能解释一下下面的行为?

import pyspark.pandas as ps

loan_information = ps.read_sql_query([blah])

loan_information.shape
#748834, 84

loan_information.apply(lambda col: col.shape)
#Each column has 75 dimensions. The first 74 are size 10000, the last is size 8843
#This still sums to 748834, but hardly seems like desirable behavior

我的猜测是,批量大小为10000的文件被提供给了执行程序,但是,这似乎是非常不受欢迎的行为。

uqzxnwby

uqzxnwby1#

文档非常清楚:
当axis为0或'index'时,func无法访问整个输入序列。pandas-on-Spark在内部将输入序列拆分为多个批次,并多次调用func。因此,诸如全局聚合之类的操作是不可能的。请参见下面的示例。
.apply用于非聚合函数,如果你想做聚合类型的函数,使用类似.aggregate的东西

相关问题