试图转换模式为col1=int,col2=str,col3=str的csv表,如下所示:
输入样本
INT1, S1, S2
INT1, S1, S3
INT1, S2, S3
INT2, S1, S2
INT2, S1, S3
INT2, S1, S4
INT2, S2, S3
INT2, S2, S4
INT2, S3, S4
到一个输出csv/表,其中col2或col3中的唯一字符串作为col1输出,后跟一个唯一col1 int的列表(在output table/csv的col2中)。
输出csv/表格:
S1, [INT1, INT2]
S2, [INT1, INT2]
S3, [INT1, INT2]
S4, [INT2]
2条答案
按热度按时间pw136qt21#
首先,可以使用melt垂直堆叠
COL2
以及COL3
变成长格式。其次,现在可以使用groupby按熔融列进行分组,并获得COL1
对于每个分组(s1、s2等):r8uurelv2#
如果
COL2
以及COL3
如果是等价的,则可以将这两列堆叠为长格式,按值分组,并找出该列的唯一元素INT
带的列set
功能: