如何在pyspark中将rdd列表转换为rdd行

xjreopfe 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(496)

rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ])

# convert to as follows

..., ...
..., ...

# show result

rdd.collect()
[Row(col='a1'), Row(col='a2'), Row(col='a3'), Row(col='a4'), Row(col='a5'), ]

我知道在 Java Spark 我们可以用 Row 但未在中实施 PySpark .
那么最合适的实施方式是什么呢？将其转换为 dict 然后转换它 rdd .

rdd apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/63443746/how-to-convert-rdd-list-to-rdd-row-in-pyspark

1条答案

按热度按时间

p1tboqfb1#

然后导入 Row 包裹。

rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ])
from pyspark.sql import Row 

rdd.map(lambda x: Row(x)).collect()

[<Row('a1')>, <Row('a2')>, <Row('a3')>, <Row('a4')>, <Row('a5')>]

赞(0）回复(0）举报 2021-05-27

我来回答

如何在pyspark中将rdd列表转换为rdd行

1条答案

相关问题

热门标签

最新问答