更新和插入

ogq8wdun 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(427)

我们每小时接收一次json数据到hdfs中。数据大小约为每小时5-6 gb。
当在最终表中找到匹配的记录时，则更新（或）删除
如果记录在最终数据集中不匹配，则插入记录。
我们已经为用例尝试了配置单元合并选项。在配置单元中处理合并操作需要一个多小时。有没有其他替代方法来解决这个用例呢？所以基本上每天我们都要向配置单元中添加150gb的数据，每隔一天我们都要扫描150gb的数据以确定是否需要进行更新/插入
对大型数据集执行upserts（hadoop中的更新和插入）的最佳方法是什么。Hive或hbase或nifi。什么是流动。

hadoop Hive apache-spark apache-nifi updates

来源：https://stackoverflow.com/questions/52015270/updates-and-inserts