连接和排序数据集hadoop

kokeuurv  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(449)

我正在使用mapreduce开发hadoop项目(我有两个数据集kdd和darpaa),我正在寻找一种算法,可以在一个文件中对这些数据集进行分组和排序。
两个数据集的格式如下:

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0

我想将这两个数据集合并到一个文件中,首先我想检查两个文件中是否有重复的数据并删除重复的行,其次我想将@attribute和@data组合在一起)。

2eafrhcq

2eafrhcq1#

Map Side:

必须编写两个Map器,一个用于kdd,另一个用于darpaa。
获取kdd和darpaa通用的值。
将其作为两个Map器的输出键
整个输入可以作为Map器值输出发送。
根据各自的Map器,用@data或@attribute追加输入。

Reduce Side:

遍历Map器的输出键。
比较附加字符串(kdd或darpaa)附带的值并执行必要的逻辑。

相关问题