mapreduce作业，用于收集json的hdfs目录中的所有唯一字段

niwlg2el 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(172)

我的问题实质上是这个参考问题的应用：
将json转换为Parquet地板
我发现自己处于一个相当独特的位置，必须半手动地为hdfs目录中json文件（由已知资源的任意组合组成）中包含的字段的超集管理avro模式。
这是我正在尝试开发的etl管道的一部分，用于将这些文件转换为parquet，以便在spark中进行更高效/更简单的处理。我以前从来没有写过mapreduce程序，所以我从零开始。如果有人以前遇到过这种问题，我将非常感谢您的帮助。谢谢！

hadoop mapreduce avro JSON parquet

来源：https://stackoverflow.com/questions/35495041/mapreduce-job-to-collect-all-unique-fields-in-hdfs-directory-of-json

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

mapreduce作业，用于收集json的hdfs目录中的所有唯一字段

暂无答案！

相关问题

热门标签

最新问答