如何合并pysparkDataframe中满足条件的两行?
例子:
Dataframe
+---+---+------+
|src|dst|weight|
+---+---+------+
| 8| 7| 1|
| 1| 1| 93|
| 1| 4| 1|
| 4| 4| 2|
| 4| 1| 3|
| 1| 7| 1|
+---+---+------+
条件: (df.src,df.dst) == (df.dst,df.src)
预期产量
求和权重并删除(4,1)
+---+---+------+
|src|dst|weight|
+---+---+------+
| 8| 7| 1|
| 1| 1| 93|
| 1| 4| 4| #
| 4| 4| 2|
| 1| 7| 1|
+---+---+------+
或
求和权重并删除(1,4)
+---+---+------+
|src|dst|weight|
+---+---+------+
| 8| 7| 1|
| 1| 1| 93|
| 4| 4| 2|
| 4| 1| 4| #
| 1| 7| 1|
+---+---+------+
1条答案
按热度按时间xu3bshqb1#
您可以添加
src_dst
列的排序数组src
以及dst
,然后得到每个src_dst
,并删除src_dst
: