如何在pyspark中将rdd列表转换为rdd行

xjreopfe  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(497)
rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ])

# convert to as follows

..., ...
..., ...

# show result

rdd.collect()
[Row(col='a1'), Row(col='a2'), Row(col='a3'), Row(col='a4'), Row(col='a5'), ]

我知道在 Java Spark 我们可以用 Row 但未在中实施 PySpark .
那么最合适的实施方式是什么呢?将其转换为 dict 然后转换它 rdd .

p1tboqfb

p1tboqfb1#

然后导入 Row 包裹。

rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ])
from pyspark.sql import Row 

rdd.map(lambda x: Row(x)).collect()

[<Row('a1')>, <Row('a2')>, <Row('a3')>, <Row('a4')>, <Row('a5')>]

相关问题