我有4个身体:
C1 = ['hello','good','good','desk']
C2 = ['nice','good','desk','paper']
C3 = ['red','blue','green']
C4 = ['good']
我想定义一个单词列表,对于每个单词-得到每个语料库的出现次数。
l=['好','蓝']
我会得到
res_df = word. C1. C2. C3. C4
good. 2. 1. 0. 1
blue. 0. 0. 1. 0
我的语料库非常大,所以我在寻找有效的方法。什么是最好的方法来做到这一点?
谢啦,谢啦
3条答案
按热度按时间7kqas0il1#
您可以使用python库计数器
输出
rsl1atfo2#
使用
.loc
的另一种替代方法:示例如下:
输出:
unguejic3#
一个想法是通过列表过滤值,列表转换为集合,然后按
Counter
计数,最后传递给DataFrame,并添加0
和整数:如果可能,列表中不存在值: