我用的是jupyter笔记本中的pyspark。我尝试用两个数据集进行内部连接:一个有2455行,另一个超过100万行。为什么内部连接会产生这么多行?它应该有少于2455行,当然?有人能给我一些建议吗?
print(df.count(),len(df.columns))
19725379 90
print(df1.count(),len(df1.columns))
2455 37
df3 = df.join(df1,"ADDRESS1", "inner")
df3.dropDuplicates(subset=['ADDRESS1']).count
print(df3.count(),len(df3.columns))
603050 126
df3 = df.join(df1,"ADDRESS1", "inner")
print(df3.count(),len(df3.columns))
603050 126
1条答案
按热度按时间vohkndzv1#
不,没必要,举个例子
df 1=
df2=
用你的话来说,键“t1”的内部连接长度必须不超过2,但不能:
关于第一列的内部连接将是: