与pyspark合并

j2cgzkjk 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(503)

我和pyspark一起工作，我有spark 1.6。我想把一些值组合在一起。

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
|  C     |    3|
|  D     |   10|

我将把所有总价值低于10%的项目归为一组（在这种情况下，c和d将归为新的“其他”值）
新table看起来像

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
| Other  |   13|

有人知道一些功能或者简单的方法吗？非常感谢你的帮助

hadoop python pyspark pyspark-sql

来源：https://stackoverflow.com/questions/41068047/merge-with-pyspark

1条答案

按热度按时间

9bfwbjaz1#

可以对Dataframe进行两次过滤，以获得只包含要保留的值的Dataframe，以及只包含其他值的Dataframe。对其他Dataframe执行聚合以求和，然后将这两个Dataframe合并在一起。根据数据的不同，您可能希望在所有这些之前保留原始Dataframe，这样就不需要对其进行两次求值。

赞(0）回复(0）举报 2021-05-29

我来回答

与pyspark合并

1条答案

相关问题

热门标签

最新问答