我想从不同来源的两个完全相同的 Dataframe 中选择不匹配的列及其值。
- 我现在拥有的:**
| 列_1|键列|第二栏|第三列|第四栏|
| - ------|- ------|- ------|- ------|- ------|
| 项目a|键1|b.人口基金|(c)秘书长的报告|日|
| w|键2|x|Y型|z|
| 列_1|键列|第二栏|第三列|第四栏|
| - ------|- ------|- ------|- ------|- ------|
| 项目a|键1|b.人口基金|p|q|
| w|键2|x|Y型|z|
我有来自不同数据源的相同模式的2个 Dataframe 。
- 我想要的**
使用"key_col"作为连接键连接(内部连接)2个 Dataframe ,并以以下格式给出输出:
对于联接后获得的表中的每一行,返回以下行:
| 键列|列名不匹配|第一个df中的值不匹配|秒df中的值不匹配|
| - ------|- ------|- ------|- ------|
| 键1|[第3栏、第4栏]|[c、d]|[p,q]|
我正在寻找查询这样做在pyspark。
1条答案
按热度按时间xqkwcwgp1#
这是可行的:
输入:
DF1:
DF2:
输出: