csv 在导入过程中对Pandas中具有重复列标题的单元格求和- python

2nc8po8w  于 2023-02-14  发布在  Python
关注(0)|答案(2)|浏览(171)

我尝试做一些基本的降维。我有一个CSV文件,看起来像这样:

A B C A B B A C
1 1 2 2 1 3 1 1
1 2 3 0 0 1 1 2
0 2 1 3 0 1 2 2

我想导入一个PandasDF,但不把标题重命名为A.1 A.2等等。相反,我想把重复的加起来,并保留列名。理想情况下,我的新DF应该是这样的:

A B C
4 5 3
2 3 5
5 3 3

是否可以很容易地做到这一点,或者您会推荐一种不同的方法吗?我还可以使用bash、R或任何可以处理100万行和1000列的文件的方法。
谢谢大家!

kwvwclae

kwvwclae1#

尝试按.groupby拆分列名的第一部分:

df.groupby(df.columns.str.split('.').str[0], axis=1).sum()

输出:

A  B  C
0  4  5  3
1  2  3  5
2  5  3  3
0lvr5msh

0lvr5msh2#

只需正常加载 Dataframe ,并按列名的第一个字母分组,然后对值求和:

df.groupby(lambda colname: colname[0], axis=1).sum()

它给出了

A  B  C
0  4  5  3
1  2  3  5
2  5  3  3

相关问题