+-----------------------------------------------------------------------------------------------------------------------------------------------+
|Texts |
+----------------------------------------------------------------------------------------------------------------------------------------------+
|RT @xxxxxx: post aqwe qwqq ssdd qaAQ WQWQW CSDWDW!!!
must RT ! |
|RT @xxxxx: aaa in ssss ssss ss sqqq this qqq in "sss" should xxxx xx at xx xaaaa aqw |
|RT @xxxx: QWW sadad jkhj to hjyhy a eryr rrryryry? ersfsfdsgdgdgg t rtrt ytyyryr.
sadwf wwewe ewewe jyiopo;l dwewre etet of the ddgdg-we dfdfdf, @b… |
+-----------------------------------------------------------------------------------------------------------------------------------------------+
我想使用scala和spark在一个列表的text列中设置这些行的值。
1. val newList = myDataframe.select("Texts").rdd.map(_(0)).collect.toList
2. val newList = myDataframe.select("Texts").collect().map(_(0)).toList
newList .foreach(println)
这两种方法都不会给出任何输出,程序也不会终止。不会抛出错误。
预期产量
["RT @xxxxxx: post aqwe qwqq ssdd qaAQ WQWQW CSDWDW!!! must RT !", "RT @xxxxx: aaa in ssss ssss ss sqqq this qqq in "sss" should xxxx xx at xx xaaaa aqw", "RT @xxxx: QWW sadad jkhj to hjyhy a eryr rrryryry? ersfsfdsgdgdgg t rtrt ytyyryr.
sadwf wwewe ewewe jyiopo;l dwewre etet of the ddgdg-we dfdfdf, @b…"]
请注意,dataframe中每行的句子可能包含新行
如 I am going to the the shop.\n Its very expensive
这句话将显示为
I am going to the shop
its very expensive
但两者将属于同一行。
1条答案
按热度按时间6ss1mwsb1#
下面的方法是将Dataframe的列转换为列表的正确方法
但问题中的Dataframe表示,每行可能包含新行。因此上述方法不会直接起作用。第一个新行应该被删除。