数据是
data = [{"_id":"Inst001","Type":"AAAA", "Model001":[{"_id":"Mod001", "Name": "FFFF"},
{"_id":"Mod0011", "Name": "FFFF4"}]},
{"_id":"Inst002", "Type":"BBBB", "Model001":[{"_id":"Mod002", "Name": "DDD"}]}]
需要按如下方式构建Dataframe
pid\U IDNAMEINST001MOD001FFFFINST001MOD0011FFF4INST002MOD002DDD
我的方法是
需要爆炸“model001”
然后需要将主id附加到此分解的Dataframe。但是如何在pyspark中完成这个附加呢?
pyspark中是否有解决上述问题的内置方法?
1条答案
按热度按时间fnx2tebb1#
创建一个具有适当模式的Dataframe,然后
inline
上Model001
列: