可以导出Dataframe/集的spark逻辑或物理计划,将其序列化并将其保存在某处(如文本、xml、json…)。然后重新导入它,并基于它创建一个Dataframe?这里的想法是,我对spark dataframes的元存储很感兴趣,在这里我可以保存Dataframe逻辑或物理计划,以便其他人可以使用它们。
pbwdgjma1#
spark 2.4.2 对于较低版本的spark,以下代码可能不同。检查以下代码。
spark 2.4.2
spark.read.json(Seq(df.queryExecution.logical.toJSON).toDS).write.format("json").save("logical") spark.read.json(Seq(df.queryExecution.sparkPlan.toJSON).toDS).write.format("json").save("sparkPlan") spark.read.json(Seq(df.queryExecution.executedPlan.toJSON).toDS).write.format("json").save("executedPlan") spark.read.json(Seq(df.queryExecution.analyzed.toJSON).toDS).write.format("json").save("analyzed")
1条答案
按热度按时间pbwdgjma1#
spark 2.4.2
对于较低版本的spark,以下代码可能不同。检查以下代码。