jieba 用户自定义字典内容支持正则吗?

mznpcxlj  于 4个月前  发布在  其他
关注(0)|答案(7)|浏览(65)

在用户自定义字典的时候,内容支持正则吗?

kq0g1dla

kq0g1dla1#

5小时,7千克,0.01毫米

hkmswyz6

hkmswyz62#

5小时,7千克,0.01毫米

请教下这种词语是如何分词的,做到识别是一个完整的意思

i2loujxw

i2loujxw3#

@isafe , 目前还不支持。有开源分词组件支持正则词典的?

qc6wkl3g

qc6wkl3g4#

好像不支持,有个问题想请教下,我用 jieba提取关键字,提取的内容中是中英文混合的
比如 sentence = “beijing,北京欢迎你”
jieba.analyse.extract_tags(sentence,1),比如这样出来的可能是“北京” 但是我想要第一个出来的是欢迎 怎么调整?

2014-07-29 19:02 GMT+08:00 Sun Junyi notifications@github.com :
@isafe https://github.com/isafe , 目前还不支持。有开源分词组件支持正则词典的?


Reply to this email directly or view it on GitHub
#172 (comment).

k10s72fa

k10s72fa5#

@isafe 這樣你要調整 idf.txt 裡面歡迎的權重值,目前最新版的 jieba 可以切換 idf 語料庫,這樣你就可以調整成你想要的權重值~ 不過建議 idf 的權重值應該還是要自己蒐集足夠量的文本之後計算出每個詞的 idf 權重值會比較客觀

6qfn3psc

6qfn3psc6#

@fxsjy 你说的开源分词组建是哪个?

8iwquhpp

8iwquhpp7#

我倒是也有类似的需求,比如凌晨(5:00-6:00)这样的想分成一个词。

相关问题