谁能解释一下下面的行为?
import pyspark.pandas as ps
loan_information = ps.read_sql_query([blah])
loan_information.shape
#748834, 84
loan_information.apply(lambda col: col.shape)
#Each column has 75 dimensions. The first 74 are size 10000, the last is size 8843
#This still sums to 748834, but hardly seems like desirable behavior
我的猜测是,批量大小为10000的文件被提供给了执行程序,但是,这似乎是非常不受欢迎的行为。
1条答案
按热度按时间uqzxnwby1#
文档非常清楚:
当axis为0或'index'时,func无法访问整个输入序列。pandas-on-Spark在内部将输入序列拆分为多个批次,并多次调用func。因此,诸如全局聚合之类的操作是不可能的。请参见下面的示例。
.apply
用于非聚合函数,如果你想做聚合类型的函数,使用类似.aggregate
的东西