我一直在用python本地处理一些数据集,现在正试图用sql在云环境中复制相同的结果。
我有3个表,每个表都有多个重复的id。例如,表a将包含id a, b, c, d, ...
,表b将包含ID a, c, e, a1, a2 ...
,表c将包含ID d, f, a2, b1, b2, ...
我现在正在做 pd.merge
对于id上的表a和表b a
,和表c,以及id上第一次合并的结果表 a2
. 在使用pd.merge时,我注意到它会添加一个 _x
或者 _y
重复的ID(我的意思是在第一个 pd.merge
在表a和表b中, c
从表a变成 c_x
,和 c
从表b变成 c_y
对于任何其他重复的ID,依此类推。这同样适用于任何连接的任何其他重复ID。
我怎样才能复制这个过程并绕过sql中重复id的问题?
2条答案
按热度按时间mzsu5hc01#
可以使用多个联接和别名值:
输出
jmp7cifd2#
我认为您可以在join中用新名称重命名其余的连接列:
希望你觉得有用。