我有以下Dataframe df
:
+----------+--------+---------+
| ID| text | count|
+----------+--------+---------+
| 3| word| 316|
| 3| work| 385|
| 3| want| 205|
| 3| cat| 251|
| 1| office| 343|
| 1| sky| 643|
| 1| going| 126|
| 2| home| 124|
| 2| school| 23|
| 2| sleep| 103|
//and so on
现在,每个 ID
,我只想显示最大为2的行 counts
放下/隐藏剩下的:
+----------+--------+---------+
| ID| text | count|
+----------+--------+---------+
| 3| word| 316|
| 3| work| 385|
| 1| office| 343|
| 1| sky| 643|
| 2| home| 124|
| 2| sleep| 103|
//and so on
我们如何最有效地实现这一点?
2条答案
按热度按时间des4xlb01#
检查以下代码。
w1jd8yoj2#
在spark和
partitionBy
在ID
orderBy
在count
.例子: