pagerank如何在mapreduce模型中迭代?

x6yk4ghg  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(359)

我很困惑pagerank算法如何与mapreduce模型一起工作。
主要的困惑是,在phaseii之后,val是链接到关键url(而不是大纲链接)的,那么它在下一次迭代中如何工作呢?
请看下面的示例:

txt:
A->B
A->C
B->A
C->B

     WORKER1              WORKER2
LOAD
      A->B                B->A  
      A->C                C->B
MAP
     (A,B)                (B,A)
     (A,C)                (C,B)
SHUFFLE AND DISTRIBUTE
     (A,[B,C])            (B,[A])
                          (C,[B])
REDUCE
     (A,(PR(A),[B,C],2))  (B,(PR(B),[A],1))
                          (C,(PR(C),[B],1))
MAP(PHASE2)
     (B,(PR(A)/2,2))      (A,(PR(B)/1,1))
     (C,(PR(A)/2,2))      (B,(PR(C)/1,1))
SHUFFLED AND DISTRIBUTE
     (A,[PR(B)/1])        (B,[PR(A)/2,PR(C)/1])
                          (C,[PR(A)/2])
RERUCE
     (A,(NEWPR(A),[B],2)) (B,(NEWPR(B),[A,C],1))
                          (C,(NEWPR(C),[A],1))

直到现在,我失去了大纲信息,我的错误在哪里?

u59ebvdq

u59ebvdq1#

您需要一个结构(节点id、页面秩、邻接列表)来存储页面链接、pr和邻接列表。
使用mapreduce进行数据密集型文本处理是训练mapreduce思维的一本好书。在5.3 pagerank中,详细介绍了如何在mapreduce中实现pagerank。

相关问题