我和pyspark一起工作,我有spark 1.6。我想把一些值组合在一起。
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| C | 3|
| D | 10|
我将把所有总价值低于10%的项目归为一组(在这种情况下,c和d将归为新的“其他”值)
新table看起来像
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| Other | 13|
有人知道一些功能或者简单的方法吗?非常感谢你的帮助
1条答案
按热度按时间9bfwbjaz1#
可以对Dataframe进行两次过滤,以获得只包含要保留的值的Dataframe,以及只包含其他值的Dataframe。对其他Dataframe执行聚合以求和,然后将这两个Dataframe合并在一起。根据数据的不同,您可能希望在所有这些之前保留原始Dataframe,这样就不需要对其进行两次求值。