最流行的n个网站

vshtjzan  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(321)

我正在努力学习hadoop,我有一个服务器场,它有数百万个网页。我不需要弄清楚哪个是十大最流行的网页。如何在hadoop中做到这一点?

nx7onnlm

nx7onnlm1#

看一下基本的wordcount示例。您只需将“文本中的单词”替换为“url”。
我刚刚意识到我在github上已经有了这样的东西,作为我不久前写的一个库的例子:https://github.com/nielsbasjes/logparser/blob/master/examples/apache-hadoop-mapreduce/src/main/java/nl/basjes/hadoop/io/input/wordcount.java

相关问题