我们有一个上游系统,从那里我们接收关于Kafka主题的事件。上游以json格式发送事件,但是作为字符串,而且它们在json中没有固定的属性。
下面是事件的例子。“key”的值是另一个json,但作为字符串,同样适用于“key2\u4”。我们在json字符串中有更多的字段,但不确定它们是否也包含所有字段。
{
"key" : "{
"key1" : "value1",
"key2" : "{
"key2_1" : "value2_1",
"key2_2" : "value2_2",
"key2_3" : "value2_3",
"key2_4" : "{
"key2_4_1" : "value4_1",
"key2_4_2" : "value4_2"
}"
}",
"key3" : "value3"
}"
}
我们使用spark来处理这些事件,并从json字符串中读取一些属性,并将其作为单独的文件保存以供进一步使用。
有什么方法可以反序列化/处理这种json,还有spark-javaapi可以帮助读取属性,因为我们有很多事件要处理。
谢谢你的帮助。
暂无答案!
目前还没有任何答案,快来回答吧!