在python的hadoop流媒体中,如何控制数据的拆分和推送到Map器?

b5buobof  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(222)

给定一个Dataframe df1 以下列形式:

u1_id    u2_id       
a1       a2       
a3       a5
a2       a4
...

和另一个Dataframe df2 以下列形式:

u_id     p
1        (1, 2, 4, 10, 13, 14)
2        (5, 6, 12, 1, ...)
...

这个 u1_id 以及 u2_id 在同一行中 df1 用于成对相似性度量,以及 p 是用户的属性。我想把工作分成两份交给你 n 制图员。具体步骤如下:
分开 df1 分成n块。对于每一个,对应的 p 两个用户中的一个应添加到 df1_n . 所以是这样的:

u1_id    u2_id   u1_p                    u2_p
a1       a2      (1, 2, 4, 10, 13, 14)   (5, 6, 12, 1, ...)
a3       a5      (2, 3, 6)               (1, 3, 4, 8)
a2       a4      (4, 6, 7, 8)            (1, 2, 3)
...

把它发给一个制图员。
Map器只是将Dataframe发送到reducer。
减速机度量相似性。并对结果进行合并和排序。
困难是我不知道如何手动将数据发送到Map器。你能帮帮我吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题