我们每小时接收一次json数据到hdfs中。数据大小约为每小时5-6 gb。
当在最终表中找到匹配的记录时,则更新(或)删除
如果记录在最终数据集中不匹配,则插入记录。
我们已经为用例尝试了配置单元合并选项。在配置单元中处理合并操作需要一个多小时。有没有其他替代方法来解决这个用例呢?所以基本上每天我们都要向配置单元中添加150gb的数据,每隔一天我们都要扫描150gb的数据以确定是否需要进行更新/插入
对大型数据集执行upserts(hadoop中的更新和插入)的最佳方法是什么。Hive或hbase或nifi。什么是流动。
1条答案
按热度按时间9q78igpj1#
我们将uber的hoodie库用于类似的用例。它使用带分区的spark库和bloomfilter索引来加快合并速度。它支持hive和presto。
deltastreamer工具可用于快速设置和初始测试