Pandas合并不平等

mgdq6dx1 于 2023-09-29 发布在其他

关注(0)|答案(2)|浏览(82)

所以我一直在搜索与这个SQL查询等价的pandas

SELECT * FROM table1
LEFT JOIN table2
ON table1.columnX>=table2.columnY

*请注意，我是通过不等式条件>=连接的，而不是通过匹配列。

但似乎Pandas的合并只能通过精确匹配来加入（如select * from table1 LEFT JOIN table2 ON table1.columnX=table2.columnY）
它似乎不支持通过更复杂的条件进行连接，比如一列的值大于另一列。支持哪种SQL
我发现很多资源都说它不支持这一点，唯一的方法是先做一个cartersian产品，然后过滤得到的 Dataframe 。或者在加入之前预过滤 Dataframe 。然而，笛卡尔积是昂贵的
但我找到的这些来源是5年前的。panda的merge只能通过精确匹配列来连接，并且不允许不等式（<，>，<=，>=，between），这在今天仍然是一样的吗？
以下是我在这方面找到的一些旧资源：
Inequality joins in Pandas?
Merge pandas dataframes where one value is between two others
在pandas中按范围连接/合并的最佳方式

pandas

来源：https://stackoverflow.com/questions/77146492/pandas-merge-on-inequality

2条答案

按热度按时间

cbwuti441#

conditional_join有效地覆盖了不等式连接（在引擎盖下，它使用二进制搜索）

# pip install pyjanitor
import pandas as pd
import janitor
from janitor import col
``
# code adapted from
# https://stackoverflow.com/a/44601120/7175713
table1 = pd.DataFrame(dict(
        columnX=range(5),
        value=range(5, 105, 21)
     ))
table2 = pd.DataFrame(dict(
        columnY=range(3),
        low=[0, 30, 30],
        high=[10, 40, 50]
   ))

table1
   columnX  value
0        0      5
1        1     26
2        2     47
3        3     68
4        4     89

table2
   columnY  low  high
0        0    0    10
1        1   30    40
2        2   30    50

table1.conditional_join(table2, col('columnX') >= col('columnY'))
    columnX  value  columnY  low  high
0         0      5        0    0    10
1         1     26        0    0    10
2         1     26        1   30    40
3         2     47        0    0    10
4         2     47        1   30    40
5         2     47        2   30    50
6         3     68        0    0    10
7         3     68        1   30    40
8         3     68        2   30    50
9         4     89        0    0    10
10        4     89        1   30    40
11        4     89        2   30    50

table1.conditional_join(table2, ('columnX','columnY','>='))
    columnX  value  columnY  low  high
0         0      5        0    0    10
1         1     26        0    0    10
2         1     26        1   30    40
3         2     47        0    0    10
4         2     47        1   30    40
5         2     47        2   30    50
6         3     68        0    0    10
7         3     68        1   30    40
8         3     68        2   30    50
9         4     89        0    0    10
10        4     89        1   30    40
11        4     89        2   30    50

范围连接也可以有效地实现，如果你安装了numba，你可以得到加速：

table1.conditional_join(table2, col('value') > col('low'), col('value') < col('high'))
   columnX  value  columnY  low  high
0        0      5        0    0    10
1        2     47        2   30    50

table1.conditional_join(table2, ('value','low','>'), ('value', 'high', '<'))
   columnX  value  columnY  low  high
0        0      5        0    0    10
1        2     47        2   30    50

如果你只是寻找第一个匹配，其中columnX >= columnY，那么pd.merge_asof也可以很好地覆盖你：

pd.merge_asof(table1, table2, left_on = 'columnX', right_on='columnY')
   columnX  value  columnY  low  high
0        0      5        0    0    10
1        1     26        1   30    40
2        2     47        2   30    50
3        3     68        2   30    50
4        4     89        2   30    50

注意，对于pd.merge_asof，连接列应该排序; conditional_join在引擎盖下处理这个问题。

赞(0）回复(0）举报 2023-09-29

vh0rcniy2#

在Pandas中，merge函数主要用于基于列之间的精确匹配进行组合。

您可以使用此代码作为示例：

import pandas as pd

# Sample data
data1 = {'columnX': [10, 15, 20]}
data2 = {'columnY': [5, 12, 18]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# Perform a cartesian product
cartesian = pd.merge(df1.assign(key=1), df2.assign(key=1), on='key').drop('key', axis=1)

# Filter based on inequality condition
result_df = cartesian[cartesian['columnX'] >= cartesian['columnY']]

print(result_df)

赞(0）回复(0）举报 2023-09-29

我来回答

Pandas合并不平等

2条答案

相关问题

热门标签

最新问答