python 按标头中的字符串和找到的标头的列中的字符串过滤pd.DataFrame

nzrxty8p 于 2023-02-18 发布在 Python

关注(0)|答案(3)|浏览(118)

我正试图找到一种方法，使我能够选择/过滤标题中包含一个特定字符串和列中另一个字符串的列。
我对快速选择列和与所选列相关的行的方法有点困惑。
假设以下 Dataframe df：

Country/Region  Record ID
0   France          118
1   France          110
2   United Kingdom  146
3   United Kingdom  836
4   France          944

我在想：
condition_1 --〉筛选标题condition_2中包含“国家/地区”的列--〉筛选国家/地区为“法国”的行
可以用一个.loc[]和/或def或lambda函数来实现吗？我需要在我的过程中对几个组合和条件进行乘法运算。
我曾试图把以下几点结合起来，但没有成功：
country_condition = lambda df, string: df.filter(regex=string)
df.loc[country_condition==True, :]或df[df.filter(regex='Country') == 'France']
所以任何帮助都将不胜感激。
我希望能够给予标题需要包含的字符串（此处为“Country”）和此列的行需要包含的字符串（此处为“France”），以便得到：

Country/Region  Record ID
0   France          118
1   France          110
4   France          944

python

来源：https://stackoverflow.com/questions/75485882/filter-pd-dataframe-by-string-in-header-and-string-in-column-of-the-found-header

3条答案

按热度按时间

jmo0nnb31#

一个可能的解决方案，它应该与多列的标题中的Country：

df.loc[df.filter(like='Country').eq('France').all(axis=1), :]

输出：

Country/Region  Record ID
0         France        118
1         France        110
4         France        944

赞(0）回复(0）举报 2023-02-18

wb1gzix02#

最简单的方法就是保持数据不变，并以标准方式进行查询：

df[df['Country/Region'] == 'France']

df.filter(regex=...)所做的是选择与正则表达式匹配的数据框列，这与运行df[[i for i in df.columns if re.match(..., i)]]相同，但您说您有多个列，它们可能不都以相同的名称开头：df.filter可能遇到存在多个匹配的问题。

>>> df0 = pd.DataFrame({'country/adjfkl': ['A', 'B', 'C']})
>>> df1 = pd.DataFrame({'country/a1395d': ['B', 'C', 'D']})
>>> pd.concat([d[lambda e: e.filter(regex='^country').eq('B').any(axis=1)] for d in [df0, df1]])
  country/adjfkl country/a1395d
1              B            NaN
0            NaN              B

过滤器的结果可以减少维度与任何横向（即水平）。我不能完全说为什么你会这样做，但是，因为你会留下不一致的列。
最好从一开始就将它们重命名为：

>>> pd.concat(
...     [d.rename(
...         columns=lambda s: re.sub('^country.*', 'country_name', s)).loc[
...         lambda e: e['country_name'] == 'B', :
...     ] for d in [df0, df1]]
... )
  country_name
1            B
0            B

赞(0）回复(0）举报 2023-02-18

643ylb083#

如果您已经知道要查找的列的列名和值，则只需使用df[df['Country/Region'] == 'France']
但我觉得你的问题要复杂得多。
第一个条件，我们需要列名列表。

cols = [x if 'Country' in x for x in df.cols]

接下来我们检查这些列中的“France”，因为cols是一个列表，所以我们一个接一个地检查并连接结果。

new_df = pd.DataFrame()

for col in cols:
    new_df = pd.concat([new_df, df[df[col] == 'France']])

完整代码示例：

import pandas as pd

df = pd.DataFrame({'Country/Region': ['France', 'France', 'Spain'], 'Record ID': [120, 240, 360]})
cols = [x for x in df.columns if 'Country' in x]

new_df = pd.DataFrame()

for col in cols:
    new_df = pd.concat([new_df, df[df[col] == 'France']])

print(new_df)

印刷品：

Country/Region  Record ID
0         France        120
1         France        240

赞(0）回复(0）举报 2023-02-18

我来回答

python 按标头中的字符串和找到的标头的列中的字符串过滤pd.DataFrame

3条答案

相关问题

热门标签

最新问答