csv 在导入过程中对Pandas中具有重复列标题的单元格求和- python

2nc8po8w 于 2023-02-14 发布在 Python

关注(0)|答案(2)|浏览(171)

我尝试做一些基本的降维。我有一个CSV文件，看起来像这样：

A B C A B B A C
1 1 2 2 1 3 1 1
1 2 3 0 0 1 1 2
0 2 1 3 0 1 2 2

我想导入一个PandasDF，但不把标题重命名为A.1 A.2等等。相反，我想把重复的加起来，并保留列名。理想情况下，我的新DF应该是这样的：

是否可以很容易地做到这一点，或者您会推荐一种不同的方法吗？我还可以使用bash、R或任何可以处理100万行和1000列的文件的方法。
谢谢大家!

2条答案

尝试按.和groupby拆分列名的第一部分：

df.groupby(df.columns.str.split('.').str[0], axis=1).sum()

输出：

只需正常加载 Dataframe ，并按列名的第一个字母分组，然后对值求和：

df.groupby(lambda colname: colname[0], axis=1).sum()

它给出了