rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ])
# convert to as follows
..., ...
..., ...
# show result
rdd.collect()
[Row(col='a1'), Row(col='a2'), Row(col='a3'), Row(col='a4'), Row(col='a5'), ]
我知道在 Java Spark
我们可以用 Row
但未在中实施 PySpark
.
那么最合适的实施方式是什么呢?将其转换为 dict
然后转换它 rdd
.
1条答案
按热度按时间p1tboqfb1#
然后导入
Row
包裹。