pyspark Spark apply()上的Pandas似乎正在重塑列

qyzbxkaa 于 2023-05-16 发布在 Spark

关注(0)|答案(1)|浏览(111)

谁能解释一下下面的行为？

import pyspark.pandas as ps

loan_information = ps.read_sql_query([blah])

loan_information.shape
#748834, 84

loan_information.apply(lambda col: col.shape)
#Each column has 75 dimensions. The first 74 are size 10000, the last is size 8843
#This still sums to 748834, but hardly seems like desirable behavior

我的猜测是，批量大小为10000的文件被提供给了执行程序，但是，这似乎是非常不受欢迎的行为。

pyspark

来源：https://stackoverflow.com/questions/76211141/pandas-on-spark-apply-seems-to-be-reshaping-columns

1条答案

按热度按时间

uqzxnwby1#

文档非常清楚：
当axis为0或'index'时，func无法访问整个输入序列。pandas-on-Spark在内部将输入序列拆分为多个批次，并多次调用func。因此，诸如全局聚合之类的操作是不可能的。请参见下面的示例。
.apply用于非聚合函数，如果你想做聚合类型的函数，使用类似.aggregate的东西

赞(0）回复(0）举报 2023-05-16

我来回答

pyspark Spark apply()上的Pandas似乎正在重塑列

1条答案

相关问题

热门标签

最新问答