jieba 可不可以只输出用户词典里有的词？

6yoyoihd 于 5个月前发布在其他

关注(0)|答案(6)|浏览(103)

应该可以通过添加用户词典，然后判断词是否在词典里吧？
但是添加用的是jieba.load_userdict
所以如果我要用if word in 这个dict叫什么呢？。。。。

jieba

来源：https://github.com/fxsjy/jieba/issues/421

6条答案

按热度按时间

uhry853o1#

添加了一个dict但是一直乱码啊，好奇怪啊，utf-8格式，别的用同样方法添加的停用词都不会乱码。一旦我想要匹配输出词和dict就会输出乱码

赞(0）回复(0）举报 5个月前

9o685dep2#

用这个，定义主词库，jieba.set_dictionary('dict.txt.big')
自定义的字典，用Notepad++创建，别用win的记事本

赞(0）回复(0）举报 5个月前

2j4z5cfb3#

这个是添加用户词典里的词，从而可以被识别和区分，但是并不是只输出词典里有的词吧？ Sent from Mail Master 在2016年12月20日 19:15，mycrystalgirl 写道: 用这个，定义主词库，jieba.set_dictionary('dict.txt.big') 自定义的字典，用Notepad++创建，别用win的记事本 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

赞(0）回复(0）举报 5个月前

bbuxkriu4#

你都已经定义了主词典，当然所有分词结果都是都主词典抽取的，所以只输出主词典有的词。
记住几点
1.记得别用关键词提取，而是用分词功能jieba.cut
2.关闭HMM
即便这样，还是匹配出字符串里任何的英文和数字字符串，所以
3.修改init.py把里面的eng正则破坏掉，我另一个帖子讲的
我也是刚刚用结巴分词，需求跟你的一样，才摸索出的。

赞(0）回复(0）举报 5个月前

xpcnnkqh5#

你说需要破坏init.py
“”修改init.py把里面的eng正则破坏掉，我另一个帖子讲的“”

能不能把你的帖子地址分享一下。我也遇到了非常类似的问题。谢谢

赞(0）回复(0）举报 5个月前

dnph8jn46#

HMM=false

赞(0）回复(0）举报 5个月前