pandas 使用koalas连接name_data Dataframe 中特定列中存在的值上的两个 Dataframe

xnifntxz 于 2023-03-16 发布在其他

关注(0)|答案(2)|浏览(115)

我正尝试在name_data Dataframe 中存在的code列值上连接两个 Dataframe ，如下所示。
我有两个如下所示的 Dataframe ，我希望得到一个结果 Dataframe ，它只包含来自'team_data dataframe where the corresponding code value column is present in the name_data' Dataframe 的行。
我在数据库上使用考拉来完成这个任务，我有下面的代码使用连接操作。

import databricks.koalas as ks

name_data= ks.DataFrame({'code':['123a', '345b', '678c'],
        'id':[1, 2, 3]})

team_data = ks.DataFrame({'code':['123a', '23s', '34a'],
        'id':[1, 2, 3]})

team_data_filtered = team_data.join(name_data.set_index('code'), on='code')

display(team_data_filtered)

在team_data_filtered中，预期输出将仅显示以下内容。

Code    id
'123a'   1

但是我的代码抛出一个错误，指出columns overlap but no suffix specified: ['id']。
有人可以帮助解决此问题吗？

pandas

来源：https://stackoverflow.com/questions/71131145/join-two-dataframes-on-the-values-present-in-a-specific-column-in-the-name-data

2条答案

按热度按时间

eqqqjvef1#

尝试添加后缀参数：

team_data_filtered = team_data.join(name_data.set_index('code'), on='code', 
                                                lsuffix='_1', rsuffix='_2')
team_data_filtered = team_data_filtered.loc[team_data_filtered.id_1==team_data_filtered.id2]
display(team_data_filtered)

如果需要，然后清洗色谱柱：

team_data_filtered.rename({'id_1':'id'}, inplace=True, axis=1)

赞(0）回复(0）举报 2023-03-16

kiayqfof2#

name_data= ps.DataFrame({'code':['123a', '345b', '678c'],
                         'id':[1, 2, 3]})

team_data = ps.DataFrame({'code':['123a', '23s', '34a'],
                          'id':[1, 2, 3]})

team_data_filtered = team_data.join(name_data.set_index('code'),how='inner', on='code',rsuffix="_2")

team_data_filtered.drop("id_2",axis=1).to_spark().show()

输出：

+----+---+
|code| id|
+----+---+
|123a|  1|
+----+---+

赞(0）回复(0）举报 2023-03-16

我来回答

pandas 使用koalas连接name_data Dataframe 中特定列中存在的值上的两个 Dataframe

2条答案

相关问题

热门标签

最新问答