我有一个包含两列的数据库:名称(字符串)和概率(浮点数)。
我正在运行以下命令:
df[['name','probability']].groupby('name').prod()
在Databricks(运行时7.3)笔记本上,df是pyspark.pandas Dataframe 。
我得到的错误是:
PandasNotImplementedError: The method `pd.groupby.GroupBy.prod()` is not implemented yet.
我想知道是否有变通办法。
2条答案
按热度按时间uyto3xhc1#
在这种情况下,我认为你的错误仅仅是因为你没有安装最新版本的panda。从我所看到的V.1.5.2,在它的文档中有这样的功能,当我试图在一个样本数据上运行这样的group by时,我成功了。尝试在你的shell上运行这个命令,它应该升级你的panda版本,你将能够运行这样的功能。
wqsoz72f2#
使用此
type(df[['name','probability']].groupby('name'))
检查类型是否为pandas.core.groupby.generic.DataFrameGroupBy
,否则您要更新版本