我遇到了一个困扰了我好几个月的令人费解的问题。我正在尝试创建一个avro模式(基本上,据我所知,用于序列化任意数据的模式强制格式),以将一些复杂的json文件(任意的和嵌套的)最终转换为管道中的parquet。我想知道是否有一种方法可以以合理的方式获得这个用例所需的字段名的超集,而不是hadoop mr?我认为开发中的apachearrow最终将json视为一级公民,可能有助于避免这种情况,但它还没有实现。如有任何指导,我们将不胜感激!
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!