我的rdd是这样的:
[('f1',1), ('f2',2)]
如何将其保存到json文件?
q9rjltbz1#
您可以将rdd转换为dataframe并写入json
from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName('SO')\ .getOrCreate() sc= spark.sparkContext df = sc.parallelize( [('f1', 1), ('f2', 2)]).toDF(["key", "value"]) df.write.format('json').save('output_path')
json文件中的输出如下所示
{"key":"f1","value":1} {"key":"f2","value":2}
1条答案
按热度按时间q9rjltbz1#
您可以将rdd转换为dataframe并写入json
json文件中的输出如下所示