mapreduce作业,用于收集json的hdfs目录中的所有唯一字段

niwlg2el  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(172)

我的问题实质上是这个参考问题的应用:
将json转换为Parquet地板
我发现自己处于一个相当独特的位置,必须半手动地为hdfs目录中json文件(由已知资源的任意组合组成)中包含的字段的超集管理avro模式。
这是我正在尝试开发的etl管道的一部分,用于将这些文件转换为parquet,以便在spark中进行更高效/更简单的处理。我以前从来没有写过mapreduce程序,所以我从零开始。如果有人以前遇到过这种问题,我将非常感谢您的帮助。谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题