regex 如何根据具有字符串值的列对 Dataframe 进行分组？

moiiocjp 于 2023-06-25 发布在其他

关注(0)|答案(2)|浏览(93)

我在使用groupby根据字符串中的数值对df进行分组时遇到了一些问题。正则表达式(\w+)_\w+应该匹配字符串中的数字，我希望用它来组成一个组，但是我不确定如何用groupby实现这一点。
任何帮助都将不胜感激。
数据：

import pandas as pd

df = pd.DataFrame({'x':['ab_c_1.0','ab_c_1.1','ab_c_12.0','ab_c_12.1','ab_c_123.0','ab_c_123.1']})

所需分组：

x
0     ab_c_1.0
1     ab_c_1.1

2    ab_c_12.0
3    ab_c_12.1

4   ab_c_123.0
5   ab_c_123.1

regex

来源：https://stackoverflow.com/questions/76542432/how-do-you-group-a-dataframe-based-on-a-column-with-string-values

2条答案

按热度按时间

ua4mk5z41#

其中一个选项是extract，然后三个部分请求它们的ngroup：

grp = df["x"].str.extract(r"(\D+)_(\d+)\.(\d+)").groupby([0,1]).ngroup().add(1)

#[1, 1, 2, 2, 3, 3]

split、duplicated和cumsum的另一个变体：

grp = (~df["x"].str.split(".").str[0].duplicated()).cumsum()

#[1, 1, 2, 2, 3, 3]

如果需要将组编号分配给单独的/新的列，请使用df["group"] = grp。
输出：

for _, g in df.groupby(grp):
    print(g)
          x
0  ab_c_1.0
1  ab_c_1.1
           x
2  ab_c_12.0
3  ab_c_12.1
            x
4  ab_c_123.0
5  ab_c_123.1

赞(0）回复(0）举报 2023-06-25

yftpprvb2#

可以使用.str.split()：

for _, g in df.groupby(df['x'].str.split('.').str[0]):
    print(g)
    print()

图纸：

x
0  ab_c_1.0
1  ab_c_1.1

           x
2  ab_c_12.0
3  ab_c_12.1

            x
4  ab_c_123.0
5  ab_c_123.1

赞(0）回复(0）举报 2023-06-25

我来回答

regex 如何根据具有字符串值的列对 Dataframe 进行分组？

2条答案

相关问题

热门标签

最新问答