In [94]: s = '乌鲁木齐爱家超市南门店'
In [95]: jieba.cut(s)
Out[95]: <generator object Tokenizer.cut at 0x10e24fde0>
In [96]: jieba.lcut(s)
Out[96]: ['乌鲁木齐', '爱家', '超市', '南', '门店']
In [97]: jieba.add_word('南门')
In [98]: jieba.lcut(s)
Out[98]: ['乌鲁木齐', '爱家', '超市', '南', '门店']
In [99]: jieba.suggest_freq('南门', True)
Out[99]: 833
In [100]: jieba.lcut(s)
Out[100]: ['乌鲁木齐', '爱家', '超市', '南', '门店']
In [101]: jieba.lcut(s, HMM=False)
Out[101]: ['乌鲁木齐', '爱家', '超市', '南', '门店']
期望结果['乌鲁木齐', '爱家', '超市', '南门', '店']
1条答案
按热度按时间mqxuamgl1#
期望结果
['乌鲁木齐', '爱家', '超市', '南门', '店']
@4ft35t 设置的频率还是太低了,使用
jieba.add_word("南门", freq=1000)
设置高一点就可以了。