我尝试做一些基本的降维。我有一个CSV文件,看起来像这样:
A B C A B B A C
1 1 2 2 1 3 1 1
1 2 3 0 0 1 1 2
0 2 1 3 0 1 2 2
我想导入一个PandasDF,但不把标题重命名为A.1 A.2等等。相反,我想把重复的加起来,并保留列名。理想情况下,我的新DF应该是这样的:
A B C
4 5 3
2 3 5
5 3 3
是否可以很容易地做到这一点,或者您会推荐一种不同的方法吗?我还可以使用bash、R或任何可以处理100万行和1000列的文件的方法。
谢谢大家!
2条答案
按热度按时间kwvwclae1#
尝试按
.
和groupby
拆分列名的第一部分:输出:
0lvr5msh2#
只需正常加载 Dataframe ,并按列名的第一个字母分组,然后对值求和:
它给出了