hadoop—hive能否定期向hdfs中的同一个表文件追加或插入增量数据?

ezykj2lf  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(328)

我每分钟从spark streaming(从flume exec)加载网络捕获的数据,然后根据ip地址聚合数据,最后保存到hive。为了使它更快,我创建了hiveorc表,在ip地址上有分区,它工作得很好。唯一的问题是它每分钟都会创建许多(取决于多少ip地址)kb的小文件,现在我使用“alter table…concatenate;”手动合并它们,但我认为这可能更容易,所以我想问一下是否有一个解决方案可以增量合并/附加新数据到第一分钟的表文件,而不是每分钟创建一个新的表文件。任何建议都将不胜感激!

8ljdwjyq

8ljdwjyq1#

我放弃了,看起来没有直接的解决方案,因为为了性能考虑,hive不能将内容附加到现有的数据文件中。现在我的选择仍然是每周连接一次,问题是在连接时查询会被错误消息打断(抱怨找不到数据文件),所以对业务影响很大。现在我在考虑用hbase或kudu替换hive,后者更灵活,可以提供更新/删除操作。

相关问题