将hadoop作业的结果添加到hive表

r6l8ljro 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(373)

我有一个只处理大文本文件的Map作业。对每一行进行分析和分类。多重输出用于将每个类别输出到单独的文件中。最终，所有数据都被添加到一个专门用于每个类别的配置单元表中。我目前的工作流程做的工作，但有点麻烦。我将添加几个类别，并认为我可能能够简化流程。我有一些想法，正在寻找一些意见。
当前工作流：
仅Map作业将大文件划分为多个类别。输出如下所示：
类别1-m-00000
类别1-m-00001
类别1-m-00002
类别2-m-00000
类别2-m-00001
类别2-m-00002
类别3-m-00000
类别3-m-00001
类别3-m-00002
外部（非hadoop）进程将输出文件复制到每个类别的单独目录中。
类别1/00000
类别1/00001
类别1/00002
类别2/00000
类别2/00001
类别2/00002
类别3/00000
类别3/00001
类别3/00002
为每个类别创建一个外部表，然后将数据插入该类别的永久配置单元表中。
可能的新工作流
使用spark循环输出文件，并根据文件名将数据插入到相应的永久配置单元表中。
使用hcatalog将数据直接从Map器插入到永久配置单元表中，也可以是一个或一组专门用于每个类别的缩减器。