我有一个Dataframe,它有一个列,其中包含一些嵌套的json,也有一个变量schema。每行中的json都有不同的模式。
例如
Key Value
1 {"foo":"bar"}
2 {"key1":"val1","key2":"val2"}
我需要对此进行解析,并创建一个最终的Dataframe,其中包含根据json模式组合而成的所有列及其各自的值,如下所示。
Key foo key1 key2
1 bar null null
2 null val1 val2
1条答案
按热度按时间raogr8fs1#
输出:
将keyvalue json对象中的值转换为scalaMap对象。我们叫它mapped\u df
输出(df):-
通过从上面的Map列收集所有唯一键来创建新的Dataframe架构
输出-
现在我们创建了模式。将Map的RDU df转换为rdd,并对其执行以下操作,以便与我们的新架构保持一致:
新Dataframe与给定Dataframe
谢谢!