我目前正在编写一个hadoop程序,在给定一组tweet数据的情况下,输出前100个tweet最多的hastags。我可以用 WordCount
程序。所以输出如下,忽略引号:
"#USA 2"
"#Holy 5"
"#SOS 3"
"#Love 66"
然而,当我试图用这里的代码按词频(值)对它们进行排序时,我遇到了麻烦。
我注意到,对于上面链接中提供的程序输入,键是整数而不是字符串。我试着修改代码中的一些参数以适应我的使用,但效果不太好,因为我不太了解它们。请帮帮我!
我目前正在编写一个hadoop程序,在给定一组tweet数据的情况下,输出前100个tweet最多的hastags。我可以用 WordCount
程序。所以输出如下,忽略引号:
"#USA 2"
"#Holy 5"
"#SOS 3"
"#Love 66"
然而,当我试图用这里的代码按词频(值)对它们进行排序时,我遇到了麻烦。
我注意到,对于上面链接中提供的程序输入,键是整数而不是字符串。我试着修改代码中的一些参数以适应我的使用,但效果不太好,因为我不太了解它们。请帮帮我!
1条答案
按热度按时间fbcarpbf1#
你需要一点时间
mapReduce
作业,其中输入是第一个作业的输出。我已经调整了代码,使它按照你的愿望工作。
用于输入
输出应该是
我假设tab是在hashtag和count之间分隔的。如果是别的东西,请改一下。代码没有测试,请让我知道它是否工作。