给定一个Dataframe df1
以下列形式:
u1_id u2_id
a1 a2
a3 a5
a2 a4
...
和另一个Dataframe df2
以下列形式:
u_id p
1 (1, 2, 4, 10, 13, 14)
2 (5, 6, 12, 1, ...)
...
这个 u1_id
以及 u2_id
在同一行中 df1
用于成对相似性度量,以及 p
是用户的属性。我想把工作分成两份交给你 n
制图员。具体步骤如下:
分开 df1
分成n块。对于每一个,对应的 p
两个用户中的一个应添加到 df1_n
. 所以是这样的:
u1_id u2_id u1_p u2_p
a1 a2 (1, 2, 4, 10, 13, 14) (5, 6, 12, 1, ...)
a3 a5 (2, 3, 6) (1, 3, 4, 8)
a2 a4 (4, 6, 7, 8) (1, 2, 3)
...
把它发给一个制图员。
Map器只是将Dataframe发送到reducer。
减速机度量相似性。并对结果进行合并和排序。
困难是我不知道如何手动将数据发送到Map器。你能帮帮我吗?
暂无答案!
目前还没有任何答案,快来回答吧!