hadoopMap类中的当前hdfs位置

z9smfwbn  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(173)

我有一个场景,其中我有hdfs位置的列表,它将在一个mr作业中处理,一些数据集可以出现在多个位置。前任:

Data set Id: dataset1, dataset2, dataset3.
HDFLocation1[dataset1,dataset2] (means this file have data for dataset1 and dataset2)
HDFLocation2[dataset1,dataset3]

我有下面的Map,其中有hdfs的位置需要给数据集处理。

[dataset1:HDFLoca1] 
[dataset2:HDFLoca2]
[dataset3:HDFLoca2]

我想实现以下逻辑:
in-map方法
获取数据集id(例如:dataset1)
获取当前hdfs位置
查看提供的Map,如果它想要的位置
根据步骤3跳过或处理数据。
我看过如何在hadoop程序的Map器中获取输入文件名?但是我使用的clodera版本(hadoop-core-2.5.1,cdh-5.3.1)不适用。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题