hadoop动态模式解决方案hive/avro

sqxo8psd  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(316)

需求是跟上目标orc表的模式演化。我正在从源代码接收json事件。我们计划将它们转换为avro(因为它支持模式演化)。由于模式可以每天/每周更改,因此我们需要不断接收新的数据json文件,将它们转换为avro,并将所有数据(旧的/新的)存储在orc hive表中。我们如何解决这个问题?

nmpmafwu

nmpmafwu1#

您可以遵循下面的方法,这是您可以实现以解决此问题的许多不同方法之一。
1创建hbase表
首先读取avro数据并在hbase中创建表
hbase表甚至在将来也将负责模式的演化。
2创建配置单元 Package 表
创建指向hbase表的配置单元 Package 表(存储处理程序)(你可以在这里了解更多
三。创建orc表
现在从步骤2中创建的表创建orc表
4你需要处理的事情
由于配置单元表与模式紧密耦合,因此在步骤2中将数据写入配置单元 Package 表之前,需要先处理一个步骤。您需要在这里标识新列,然后将这些列适当地添加到现有 Package 器或orc表中。这同样可以通过nifi或spark或shell脚本来实现。根据您的用例选择合适的工具。

相关问题