这个是添加用户词典里的词,从而可以被识别和区分,但是并不是只输出词典里有的词吧? Sent from Mail Master 在2016年12月20日 19:15,mycrystalgirl 写道: 用这个,定义主词库,jieba.set_dictionary('dict.txt.big') 自定义的字典,用Notepad++创建,别用win的记事本 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
6条答案
按热度按时间uhry853o1#
添加了一个dict但是一直乱码啊,好奇怪啊,utf-8格式,别的用同样方法添加的停用词都不会乱码。一旦我想要匹配 输出词和dict就会输出乱码
9o685dep2#
用这个,定义主词库,jieba.set_dictionary('dict.txt.big')
自定义的字典,用Notepad++创建,别用win的记事本
2j4z5cfb3#
这个是添加用户词典里的词,从而可以被识别和区分,但是并不是只输出词典里有的词吧? Sent from Mail Master 在2016年12月20日 19:15,mycrystalgirl 写道: 用这个,定义主词库,jieba.set_dictionary('dict.txt.big') 自定义的字典,用Notepad++创建,别用win的记事本 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
bbuxkriu4#
你都已经定义了主词典,当然所有分词结果都是都主词典抽取的,所以只输出主词典有的词。
记住几点
1.记得别用关键词提取,而是用分词功能jieba.cut
2.关闭HMM
即便这样,还是匹配出字符串里任何的英文和数字字符串,所以
3.修改init.py把里面的eng正则破坏掉,我另一个帖子讲的
我也是刚刚用结巴分词,需求跟你的一样,才摸索出的。
xpcnnkqh5#
你说需要破坏init.py
“”修改init.py把里面的eng正则破坏掉,我另一个帖子讲的“”
能不能把你的帖子地址分享一下。我也遇到了非常类似的问题。谢谢
dnph8jn46#
HMM=false