这个问题在这里已经有了答案:
pyspark拆分行并转换为rdd(1个答案)四年前关门了。现在我有一个rdd,它的元素是句子。如何使用map()和split()将每个句子按空格拆分,并使每个单词成为rdd的元素,而不是split()返回的列表?
tcomlyy61#
应该使用flatmap()获取rdd中的每个单词,这样就可以得到rdd[string]。试一下如下
val rdd=sc.textFile(filePath) rdd.flatMap(line=>line.split(" "))
以上代码是针对scala的,请用python编写相应的代码。
1条答案
按热度按时间tcomlyy61#
应该使用flatmap()获取rdd中的每个单词,这样就可以得到rdd[string]。试一下如下
以上代码是针对scala的,请用python编写相应的代码。