我正在使用mapreduce开发hadoop项目(我有两个数据集kdd和darpaa),我正在寻找一种算法,可以在一个文件中对这些数据集进行分组和排序。
两个数据集的格式如下:
@attribute 'urgent' real --------------
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0
我想将这两个数据集合并到一个文件中,首先我想检查两个文件中是否有重复的数据并删除重复的行,其次我想将@attribute和@data组合在一起)。
1条答案
按热度按时间2eafrhcq1#
必须编写两个Map器,一个用于kdd,另一个用于darpaa。
获取kdd和darpaa通用的值。
将其作为两个Map器的输出键
整个输入可以作为Map器值输出发送。
根据各自的Map器,用@data或@attribute追加输入。
遍历Map器的输出键。
比较附加字符串(kdd或darpaa)附带的值并执行必要的逻辑。