对考拉来说是个新手,尝试着做一些非常基本的事情。我只是尝试在聚合中计算列中的唯一值。在Pandas中,我会做:
df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique})
但举个例子 ks.Series.nunique
“count”似乎也没有给出正确的答案。
对于一些如此简单和普通的东西,我感到非常沮丧,而且令人恼火,以至于我在文档中似乎找不到它,因为有些东西自称是将pandas移植到spark。
2条答案
按热度按时间oogrdqng1#
你可以使用这个函数
nunique
```df.groupby('columnname')['column_i_want_count_of_unique_values'].nunique()
enyaitl32#
我想正确的语法是:
资料来源:https://github.com/databricks/koalas/pull/512