我有一个非统一的名单如下:
[['E', 'A', 'P'],
['E', 'A', 'X', 'P'],
['E', 'A', 'P'],
['P'],
['E', 'A', 'X', 'P'],
['E', 'A', 'P'],
['A', 'X', 'P'],
['E', 'A', 'P'],
['E', 'A', 'P'],
['E', 'A', 'X', 'P'],
['E', 'A', 'P'],
['E', 'A', 'P'],
['A', 'X', 'P'],
我想以此为基础创建一个数据框,其中每一列都以一位热编码的方式表示四个可能的字母"E"
、"A"
、"X"
和"p"
-最有效的方法是什么?
2条答案
按热度按时间ukqbszuj1#
我会推荐
sklearn
中的MultiLabelBinarizer
或者我们尝试用
explode
和str.get_dummies
的Pandas方式注意
l
就是这里的list
jutyujz02#
请尝试:
印刷品: