在没有主键的情况下使用pig删除重复项

huus2vyu 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(397)

我是一个hadoop新手，我有一个用例，其中有3列名称，值，时间戳。数据是逗号分隔的，是csv格式的，我需要检查重复，并删除他们使用Pig。我如何才能做到这一点。

hadoop duplicates apache-pig

来源：https://stackoverflow.com/questions/33967737/delete-duplicates-using-pig-where-there-is-no-primary-key

1条答案

按热度按时间

raogr8fs1#

你可以用Pig DISTINCT 函数删除重复项。请参考此链接了解 DISTINCT 功能。
正如您所说的，您的数据驻留在hive表中，并且您希望通过pig访问这些数据，您可以使用 HCatLoader() 通过pig访问Hive表。 HCatalog 可用于外部和内部 HIVE table。但在使用此功能之前，请验证您的群集是否已配置 HCatalog . 如果您使用的是hadoop2.x，那么它应该在那里。
用hcatalog记录你的Pig LOAD 命令是这样的。

A = LOAD 'table_name' using HCatLoader();

如果你不想用 HCatalog 如果你的 HIVE 表是 external 表和您知道的hdfs位置的数据，然后您可以使用 CSVLoader() 访问数据。使用 CSVLoader() 你的Pig LOAD 命令是这样的。

REGISTER piggybank.jar
define CSVLoader org.apache.pig.piggybank.storage.CSVLoader();
--Load data using CSVLoader.
A = LOAD '/user/hdfs/dirtodata/MyData.csv' using CSVLoader AS (
              name:chararray, value:chararray, timestamp:chararray,
);

配置单元外部表的设计使用户可以从配置单元外部访问数据，例如pig和mapreduce编程。但是如果你的 HIVE 表是内部表，您希望使用pig分析数据，然后可以使用 HCatLoader() 通过pig访问配置单元表数据。
在这两种情况下，在分析过程中不会对原始数据产生任何影响。在这里，您访问的是数据，而不是修改原始数据。
请参考下面有用的链接以了解更多有关hcat的信息。
http://hortonworks.com/hadoop-tutorial/how-to-use-hcatalog-basic-pig-hive-commands/
https://cwiki.apache.org/confluence/display/hive/hcatalog+usinghcat

赞(0）回复(0）举报 2021-06-02

我来回答

在没有主键的情况下使用pig删除重复项

1条答案

相关问题

热门标签

最新问答