我的问题实质上是这个参考问题的应用:将json转换为Parquet地板我发现自己处于一个相当独特的位置,必须半手动地为hdfs目录中json文件(由已知资源的任意组合组成)中包含的字段的超集管理avro模式。这是我正在尝试开发的etl管道的一部分,用于将这些文件转换为parquet,以便在spark中进行更高效/更简单的处理。我以前从来没有写过mapreduce程序,所以我从零开始。如果有人以前遇到过这种问题,我将非常感谢您的帮助。谢谢!
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!