我有一个pyspark Dataframe df
:-
| 库存单位|商店|旗帜|日期|
| - -|- -|- -|- -|
| 小行星330001|小行星629138|一个|二○二一○五零七|
| 33000009746的电话|小行星629138|第0页|小行星2021|
| 小行星50000441489|小行星629138|一个|二○二一○五一一|
| 小行星220000|小行星187367|第0页|二〇二二〇二一零|
| 小行星414 - 1971|小行星187367|一个|小行星20210628|
| 50000577980号|小行星176129|第0页|二〇二二〇二二五|
| 50000001六零七|小行星633782|一个|二○二一○四一九|
| 50000001六零七|小行星633782|一个|二○二一○四一九|
| 50000001六零八|小行星633782|一个|二○二一○四一九|
我想要取得每个存放区之最大(最新)Date
的SKU
存在(以Flag
表示)的相异计数。范例:=
| 贮藏|独特SKU计数|
| - -|- -|
| 小行星629138|一个|
| 小行星187367|第0页|
| 小行星176129|第0页|
| 小行星633782| 2个|
我该怎么做?
1条答案
按热度按时间xfb7svmp1#
使用窗口函数: