结巴的字典是几年前的,不知道能否加入一些新的词重新训练一份?使用了自定义词典感觉效果不太好。
9lowa7mx1#
By theory, jieba is not a trainable model i'm afraid
nukf8bse2#
可以训练啊,你拿别的人工或机器分词/标注的语料,统计一下词频就行。
gblwokeq3#
@gumblex 你好 能详细说说这个过程吗, 我想做一个自己的关键字提取的idf.txt, 但是不知道如何下手, idf.txt中的第二列, 那一串数字, 不知道怎么得出 比如劳动防护 13.900677652勞動防護 13.900677652生化学 13.900677652
vohkndzv4#
@lanhaovigoss
#87从语料生成idf.txt
4条答案
按热度按时间9lowa7mx1#
By theory, jieba is not a trainable model i'm afraid
nukf8bse2#
可以训练啊,你拿别的人工或机器分词/标注的语料,统计一下词频就行。
gblwokeq3#
@gumblex 你好 能详细说说这个过程吗, 我想做一个自己的关键字提取的idf.txt, 但是不知道如何下手, idf.txt中的第二列, 那一串数字, 不知道怎么得出 比如
劳动防护 13.900677652
勞動防護 13.900677652
生化学 13.900677652
vohkndzv4#
@lanhaovigoss
#87
从语料生成idf.txt