使用spark和scala将具有值的Dataframe列转换为列表

xytpbqjk 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(646)

+-----------------------------------------------------------------------------------------------------------------------------------------------+
|Texts                                                                                                                                          |
+----------------------------------------------------------------------------------------------------------------------------------------------+
|RT @xxxxxx: post aqwe qwqq ssdd qaAQ WQWQW CSDWDW!!! 

must RT !                                                                                                                                      |
|RT @xxxxx: aaa in ssss ssss ss sqqq this qqq in "sss" should xxxx xx at xx xaaaa aqw   |
|RT @xxxx: QWW sadad jkhj to hjyhy a eryr rrryryry? ersfsfdsgdgdgg t rtrt ytyyryr.

sadwf wwewe ewewe jyiopo;l dwewre etet of the ddgdg-we dfdfdf, @b…                                                                              |
+-----------------------------------------------------------------------------------------------------------------------------------------------+

我想使用scala和spark在一个列表的text列中设置这些行的值。

1. val newList =   myDataframe.select("Texts").rdd.map(_(0)).collect.toList
2. val newList =   myDataframe.select("Texts").collect().map(_(0)).toList
   newList .foreach(println)

这两种方法都不会给出任何输出，程序也不会终止。不会抛出错误。
预期产量

["RT @xxxxxx: post aqwe qwqq ssdd qaAQ WQWQW CSDWDW!!! must RT !", "RT @xxxxx: aaa in ssss ssss ss sqqq this qqq in "sss" should xxxx xx at xx xaaaa aqw", "RT @xxxx: QWW sadad jkhj to hjyhy a eryr rrryryry? ersfsfdsgdgdgg t rtrt ytyyryr.

sadwf wwewe ewewe jyiopo;l dwewre etet of the ddgdg-we dfdfdf, @b…"]

请注意，dataframe中每行的句子可能包含新行
如 I am going to the the shop.\n Its very expensive 这句话将显示为

I am going to the shop
 its very expensive

但两者将属于同一行。

scala DataFrame apache-spark List

来源：https://stackoverflow.com/questions/66585049/converting-a-dataframe-column-with-values-to-a-list-using-spark-and-scala

1条答案

按热度按时间

6ss1mwsb1#

下面的方法是将Dataframe的列转换为列表的正确方法

1. val newList =   myDataframe.select("Texts").rdd.map(_(0)).collect.toList
2. val newList =   myDataframe.select("Texts").collect().map(_(0)).toList

但问题中的Dataframe表示，每行可能包含新行。因此上述方法不会直接起作用。第一个新行应该被删除。

val singleLineDataframe =  myDataframe.withColumn("Texts", regexp_replace(col("Texts"), "[\\r\\n\\n]", "."))
val sentenceList =   singleLineDataframe.select("Texts").rdd.map(r => r(0)).collect.toList
for ( element <- sentenceList)
      println(element)

赞(0）回复(0）举报 2021-07-12

我来回答

使用spark和scala将具有值的Dataframe列转换为列表

1条答案

相关问题

热门标签

最新问答