压缩 Dataframe 到一个JSON字符串apache spark

owfi6suc  于 2023-02-16  发布在  Apache
关注(0)|答案(1)|浏览(141)
    • bounty将在4天后过期**。回答此问题可获得+50的声望奖励。Mike3355正在寻找规范答案

我有一个 Dataframe ,当我把它写进json时,它有几百行json,但是它们是完全一样的。我试图把它压缩到一行json。有没有现成的方法来完成这个?

def collect_metrics(df) -> pyspark.sql.DataFrame:
    neg_value = df.where(df.count < 0).count()

    return df.withColumn(loader_neg_values, F.lit(neg_value))

main(args):

    df_metrics = collect_metrics(df)
    df_metrics.write.json(args.metrics)

最终目标是写一个JSON行,并且文件必须是JSON文件,而不是压缩文件。

sy5wg1nm

sy5wg1nm1#

看起来你有几百行(重复的),但是你只想保留一行,在这种情况下你可以使用limit(1)

df_metrics.limit(1).write.json(args.metrics)

相关问题