jieba 可不可以只输出用户词典里有的词?

6yoyoihd  于 5个月前  发布在  其他
关注(0)|答案(6)|浏览(103)

应该可以通过 添加 用户词典,然后判断词是否在 词典里吧?
但是添加用的是jieba.load_userdict
所以如果我要用if word in 这个dict叫什么呢?。。。。

uhry853o

uhry853o1#

添加了一个dict但是一直乱码啊,好奇怪啊,utf-8格式,别的用同样方法添加的停用词都不会乱码。一旦我想要匹配 输出词和dict就会输出乱码

9o685dep

9o685dep2#

用这个,定义主词库,jieba.set_dictionary('dict.txt.big')
自定义的字典,用Notepad++创建,别用win的记事本

2j4z5cfb

2j4z5cfb3#

这个是添加用户词典里的词,从而可以被识别和区分,但是并不是只输出词典里有的词吧? Sent from Mail Master 在2016年12月20日 19:15,mycrystalgirl 写道: 用这个,定义主词库,jieba.set_dictionary('dict.txt.big') 自定义的字典,用Notepad++创建,别用win的记事本 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

bbuxkriu

bbuxkriu4#

你都已经定义了主词典,当然所有分词结果都是都主词典抽取的,所以只输出主词典有的词。
记住几点
1.记得别用关键词提取,而是用分词功能jieba.cut
2.关闭HMM
即便这样,还是匹配出字符串里任何的英文和数字字符串,所以
3.修改init.py把里面的eng正则破坏掉,我另一个帖子讲的
我也是刚刚用结巴分词,需求跟你的一样,才摸索出的。

xpcnnkqh

xpcnnkqh5#

你说需要破坏init.py
“”修改init.py把里面的eng正则破坏掉,我另一个帖子讲的“”

能不能把你的帖子地址分享一下。我也遇到了非常类似的问题。谢谢

相关问题