处理增量数据-hadoop

jq6vz3qz  于 2021-05-29  发布在  Hadoop
关注(0)|答案(3)|浏览(428)

我们在集群中有5年的数据,我们每天都在加载数据。每天添加的数据可能包含重复数据、部分修改的数据等。。
1 . 如何处理重复数据-是否应该作为高级编程接口pig、hive等的一部分来处理。。或者其他的选择。
假设有一个用例来找出两个记录之间发生了什么变化,给出了找出行的键。
数据建模的最佳方法是什么,使用哪些hadoop生态系统组件。

kkih6yb8

kkih6yb81#

如何处理重复数据
从hdfs原始数据中删除重复项是非常困难的,所以我猜您的方法是正确的:使用 pig 或者 hive 在加载这些数据时。
假设有一个用例来找出两个记录之间发生了什么变化,给出了找出行的键。
对于本例,您的意思是两个记录具有相同的密钥吗?
那你想捕捉什么样的变化呢?

z8dt9xmd

z8dt9xmd2#

当您这样说时,您需要删除重复项,以及两个记录之间的增量当您知道密钥时,您应该有一些标准来确定在部分更改数据的情况下要删除哪些数据。
在这两种情况下,您都可以使用密钥句柄和写入逻辑来删除重复项。考虑到并行性、性能和基于键的管理能力,map reduce似乎是一个不错的选择。大多数情况下,您的需求可以在减速机中处理

cwdobuhd

cwdobuhd3#

看看是否 Sqoop-merge 适合您的用例。
从文档:合并工具允许您合并两个数据集,其中一个数据集中的条目应覆盖旧数据集的条目。例如,以上次修改模式运行的增量导入将在hdfs中生成多个数据集,其中每个数据集中依次出现较新的数据。合并工具将把两个数据集“展平”为一个,为每个主键获取最新的可用记录。

相关问题