我有一个场景,其中我有hdfs位置的列表,它将在一个mr作业中处理,一些数据集可以出现在多个位置。前任:
Data set Id: dataset1, dataset2, dataset3.
HDFLocation1[dataset1,dataset2] (means this file have data for dataset1 and dataset2)
HDFLocation2[dataset1,dataset3]
我有下面的Map,其中有hdfs的位置需要给数据集处理。
[dataset1:HDFLoca1]
[dataset2:HDFLoca2]
[dataset3:HDFLoca2]
我想实现以下逻辑:
in-map方法
获取数据集id(例如:dataset1)
获取当前hdfs位置
查看提供的Map,如果它想要的位置
根据步骤3跳过或处理数据。
我看过如何在hadoop程序的Map器中获取输入文件名?但是我使用的clodera版本(hadoop-core-2.5.1,cdh-5.3.1)不适用。
暂无答案!
目前还没有任何答案,快来回答吧!