jieba 使用 add_word 和 suggest_freq 后,词语还是被拆分

bvpmtnay  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(41)
In [94]: s = '乌鲁木齐爱家超市南门店'

In [95]: jieba.cut(s)
Out[95]: <generator object Tokenizer.cut at 0x10e24fde0>

In [96]: jieba.lcut(s)
Out[96]: ['乌鲁木齐', '爱家', '超市', '南', '门店']

In [97]: jieba.add_word('南门')

In [98]: jieba.lcut(s)
Out[98]: ['乌鲁木齐', '爱家', '超市', '南', '门店']

In [99]: jieba.suggest_freq('南门', True)
Out[99]: 833

In [100]: jieba.lcut(s)
Out[100]: ['乌鲁木齐', '爱家', '超市', '南', '门店']

In [101]: jieba.lcut(s, HMM=False)
Out[101]: ['乌鲁木齐', '爱家', '超市', '南', '门店']

期望结果
['乌鲁木齐', '爱家', '超市', '南门', '店']

mqxuamgl

mqxuamgl1#

In [94]: s = '乌鲁木齐爱家超市南门店'

In [95]: jieba.cut(s)
Out[95]: <generator object Tokenizer.cut at 0x10e24fde0>

In [96]: jieba.lcut(s)
Out[96]: ['乌鲁木齐', '爱家', '超市', '南', '门店']

In [97]: jieba.add_word('南门')

In [98]: jieba.lcut(s)
Out[98]: ['乌鲁木齐', '爱家', '超市', '南', '门店']

In [99]: jieba.suggest_freq('南门', True)
Out[99]: 833

In [100]: jieba.lcut(s)
Out[100]: ['乌鲁木齐', '爱家', '超市', '南', '门店']

In [101]: jieba.lcut(s, HMM=False)
Out[101]: ['乌鲁木齐', '爱家', '超市', '南', '门店']

期望结果
['乌鲁木齐', '爱家', '超市', '南门', '店']

@4ft35t 设置的频率还是太低了,使用 jieba.add_word("南门", freq=1000) 设置高一点就可以了。

相关问题