hadoopMap类中的当前hdfs位置

z9smfwbn 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(173)

我有一个场景，其中我有hdfs位置的列表，它将在一个mr作业中处理，一些数据集可以出现在多个位置。前任：

Data set Id: dataset1, dataset2, dataset3.
HDFLocation1[dataset1,dataset2] (means this file have data for dataset1 and dataset2)
HDFLocation2[dataset1,dataset3]

我有下面的Map，其中有hdfs的位置需要给数据集处理。

[dataset1:HDFLoca1] 
[dataset2:HDFLoca2]
[dataset3:HDFLoca2]

我想实现以下逻辑：
in-map方法
获取数据集id（例如：dataset1）
获取当前hdfs位置
查看提供的Map，如果它想要的位置
根据步骤3跳过或处理数据。
我看过如何在hadoop程序的Map器中获取输入文件名？但是我使用的clodera版本（hadoop-core-2.5.1，cdh-5.3.1）不适用。

hadoop hadoop2

来源：https://stackoverflow.com/questions/40931360/current-hdfs-location-in-hadoop-map-class

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

hadoopMap类中的当前hdfs位置

暂无答案！

相关问题

热门标签

最新问答