java—使用mapreduce拆分字符串并重建它

7ivaypg9  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(267)

你好,我是hadoop&mapreduce编程的新手。我正在处理一堆apache日志,我们必须了解访问行为。我们现在看到的是实际的uri和推荐uri。这些referer uri来自一个查询字符串,我正试图通过mapreduce的mapper解析该查询字符串,由于我没有任何reducer功能,所以我没有构建真正的reducer。


# ip datetime method uri status code refUri userAgent

79.28.43.25 - - [25/Jan/2009:13:18:02 +0000] "GET /blog/2007/01/internet-explorer-7-in-italiano/ HTTP/1.1" 200 14487 "http://www.google.it/search?hl=it&q=aggiornamento+internet+explorer+&btnG=Cerca+con+Google&meta=&aq=f&oq=" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"

现在我想把这一行转换成


# ip datetime method uri status code refUri h1 q btnG meta aq oq userAgent

79.28.43.25 - - [25/Jan/2009:13:18:02 +0000] "GET /blog/2007/01/internet-explorer-7-in-italiano/ HTTP/1.1" 200 14487 "http://www.google.it/search?hl=it&q=aggiornamento+internet+explorer+&btnG=Cerca+con+Google&meta=&aq=f&oq=" "it" "aggiornamento+internet+explorer+" "Cerca+con+Google" "" "f" "" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"

这是一个很好的使用只Maphadoop作业的用例,我们拥有的日志数量超过1pb,并且我们期望它会增长。

juud5qan

juud5qan1#

对。如果只需要Map数据,那么就不需要reduce步骤。确保将numreducers设置为零,以便完全跳过reduce步骤。

相关问题