通过键连接sparkDataframe中的行?

idfiyjo8  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(329)

所以我有一个数据框,它有两列,一列是给用户的,另一列是给他们的帖子的。我想创建另一个数据框,它是用户名和他们所有的帖子。
我的例子

username   post

--------   ----

Bob        I want the new Iphone7

Alice      Anyone else buying the google pixel 

Bob        Just bought a mac book pro

我想要的是

Username  Post

bob      I want new Iphone7 Just bought a mac book pro

Alice    Anyone else buying the google pixel
cnh2zyt3

cnh2zyt31#

您可以使用groupby(用户名),然后使用concat\u ws(post),使用单个空格作为字符来连接post列。请参阅Pypark官方文档:
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.dataframe.groupby
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.concat_ws

相关问题