连接和排序数据集hadoop

kokeuurv 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(449)

我正在使用mapreduce开发hadoop项目（我有两个数据集kdd和darpaa），我正在寻找一种算法，可以在一个文件中对这些数据集进行分组和排序。
两个数据集的格式如下：

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0

我想将这两个数据集合并到一个文件中，首先我想检查两个文件中是否有重复的数据并删除重复的行，其次我想将@attribute和@data组合在一起）。

1条答案

Map Side:

必须编写两个Map器，一个用于kdd，另一个用于darpaa。
获取kdd和darpaa通用的值。
将其作为两个Map器的输出键
整个输入可以作为Map器值输出发送。
根据各自的Map器，用@data或@attribute追加输入。

Reduce Side:

遍历Map器的输出键。
比较附加字符串（kdd或darpaa）附带的值并执行必要的逻辑。