处理增量数据-hadoop

jq6vz3qz 于 2021-05-29 发布在 Hadoop

关注(0)|答案(3)|浏览(428)

我们在集群中有5年的数据，我们每天都在加载数据。每天添加的数据可能包含重复数据、部分修改的数据等。。
1 . 如何处理重复数据-是否应该作为高级编程接口pig、hive等的一部分来处理。。或者其他的选择。
假设有一个用例来找出两个记录之间发生了什么变化，给出了找出行的键。
数据建模的最佳方法是什么，使用哪些hadoop生态系统组件。

hadoop Hive hbase hadoop2 architecture

来源：https://stackoverflow.com/questions/33427888/handling-incremental-data-hadoop

3条答案

按热度按时间

kkih6yb81#

如何处理重复数据
从hdfs原始数据中删除重复项是非常困难的，所以我猜您的方法是正确的：使用 pig 或者 hive 在加载这些数据时。
假设有一个用例来找出两个记录之间发生了什么变化，给出了找出行的键。
对于本例，您的意思是两个记录具有相同的密钥吗？
那你想捕捉什么样的变化呢？

赞(0）回复(0）举报 2021-05-30

z8dt9xmd2#

当您这样说时，您需要删除重复项，以及两个记录之间的增量当您知道密钥时，您应该有一些标准来确定在部分更改数据的情况下要删除哪些数据。
在这两种情况下，您都可以使用密钥句柄和写入逻辑来删除重复项。考虑到并行性、性能和基于键的管理能力，map reduce似乎是一个不错的选择。大多数情况下，您的需求可以在减速机中处理

赞(0）回复(0）举报 2021-05-30

cwdobuhd3#

看看是否 Sqoop-merge 适合您的用例。
从文档：合并工具允许您合并两个数据集，其中一个数据集中的条目应覆盖旧数据集的条目。例如，以上次修改模式运行的增量导入将在hdfs中生成多个数据集，其中每个数据集中依次出现较新的数据。合并工具将把两个数据集“展平”为一个，为每个主键获取最新的可用记录。

赞(0）回复(0）举报 2021-05-29

我来回答

处理增量数据-hadoop

3条答案

相关问题

热门标签

最新问答