对页面排名的怀疑

rkue9o1l  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(302)

我正在尝试使用mapreduce查找wikipedia的内部页面排名。我在一小部分wikipages上实现了pagerank算法。共有6349页。我用这个公式来计算pagerank(d=0.85)。

我想验证所有pagerank的总和是否等于总页数(6349)。
到目前为止我发现:
1.6349页的总页数为1001.26044
2.根据维基百科,如果我使用上述公式 each PageRank is multiplied by N and the sum becomes N . 我把每一页的排名乘以n(6349),计算出总和,得到6356789.5。
页面排名之和不等于页面总数有什么原因吗?我应该用第二个公式来验证吗?

注意:为了得到一个好的近似值,我运行了10次mapreduce代码。

q1qsirdb

q1qsirdb1#

这取决于您选择的基数(默认值为1)。在每次迭代之后,您必须计算

delta = (base - sum_of_ranks) / N

然后把每一个等级降低δ。只有这样,你才能保持你的队伍活着,直到最后一次迭代结束。

fgw7neuy

fgw7neuy2#

我想,你的迭代次数太少了。为什么是10?为什么是100?还是十万?你应该数一数,最后两个变化的中间值或最大值是多少。从而评估可能的误差。
公共关系是一种可能性。它们的总和应该是1!“所有pagerank的总和等于总页数”这句话是错误的。
至于另一个公式,它属于另一个模型和另一个公关。当然,你也可以使用它。或者两者兼而有之。但你不能用它来检查。

相关问题