与pyspark合并

j2cgzkjk  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(503)

我和pyspark一起工作,我有spark 1.6。我想把一些值组合在一起。

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
|  C     |    3|
|  D     |   10|

我将把所有总价值低于10%的项目归为一组(在这种情况下,c和d将归为新的“其他”值)
新table看起来像

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
| Other  |   13|

有人知道一些功能或者简单的方法吗?非常感谢你的帮助

9bfwbjaz

9bfwbjaz1#

可以对Dataframe进行两次过滤,以获得只包含要保留的值的Dataframe,以及只包含其他值的Dataframe。对其他Dataframe执行聚合以求和,然后将这两个Dataframe合并在一起。根据数据的不同,您可能希望在所有这些之前保留原始Dataframe,这样就不需要对其进行两次求值。

相关问题