我有一个 Dataframe ,当我把它写进json时,它有几百行json,但是它们是完全一样的。我试图把它压缩到一行json。有没有现成的方法来完成这个?
def collect_metrics(df) -> pyspark.sql.DataFrame:
neg_value = df.where(df.count < 0).count()
return df.withColumn(loader_neg_values, F.lit(neg_value))
main(args):
df_metrics = collect_metrics(df)
df_metrics.write.json(args.metrics)
最终目标是写一个JSON行,并且文件必须是JSON文件,而不是压缩文件。
1条答案
按热度按时间sy5wg1nm1#
看起来你有几百行(重复的),但是你只想保留一行,在这种情况下你可以使用
limit(1)
: