所以我有一个数据框,它有两列,一列是给用户的,另一列是给他们的帖子的。我想创建另一个数据框,它是用户名和他们所有的帖子。
我的例子
username post
-------- ----
Bob I want the new Iphone7
Alice Anyone else buying the google pixel
Bob Just bought a mac book pro
我想要的是
Username Post
bob I want new Iphone7 Just bought a mac book pro
Alice Anyone else buying the google pixel
1条答案
按热度按时间cnh2zyt31#
您可以使用groupby(用户名),然后使用concat\u ws(post),使用单个空格作为字符来连接post列。请参阅Pypark官方文档:
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.dataframe.groupby
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.concat_ws