如何用python拆分spark中rdd的每个元素?

p5fdfcr1  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(633)

这个问题在这里已经有了答案

pyspark拆分行并转换为rdd(1个答案)
四年前关门了。
现在我有一个rdd,它的元素是句子。如何使用map()和split()将每个句子按空格拆分,并使每个单词成为rdd的元素,而不是split()返回的列表?

tcomlyy6

tcomlyy61#

应该使用flatmap()获取rdd中的每个单词,这样就可以得到rdd[string]。试一下如下

val rdd=sc.textFile(filePath)
rdd.flatMap(line=>line.split(" "))

以上代码是针对scala的,请用python编写相应的代码。

相关问题