在用户自定义字典的时候,内容支持正则吗?
kq0g1dla1#
5小时,7千克,0.01毫米
hkmswyz62#
请教下这种词语是如何分词的,做到识别是一个完整的意思
i2loujxw3#
@isafe , 目前还不支持。有开源分词组件支持正则词典的?
qc6wkl3g4#
好像不支持,有个问题想请教下,我用 jieba提取关键字,提取的内容中是中英文混合的比如 sentence = “beijing,北京欢迎你”jieba.analyse.extract_tags(sentence,1),比如这样出来的可能是“北京” 但是我想要第一个出来的是欢迎 怎么调整?
2014-07-29 19:02 GMT+08:00 Sun Junyi notifications@github.com :@isafe https://github.com/isafe , 目前还不支持。有开源分词组件支持正则词典的?
—Reply to this email directly or view it on GitHub#172 (comment).
k10s72fa5#
@isafe 這樣你要調整 idf.txt 裡面歡迎的權重值,目前最新版的 jieba 可以切換 idf 語料庫,這樣你就可以調整成你想要的權重值~ 不過建議 idf 的權重值應該還是要自己蒐集足夠量的文本之後計算出每個詞的 idf 權重值會比較客觀
6qfn3psc6#
@fxsjy 你说的开源分词组建是哪个?
8iwquhpp7#
我倒是也有类似的需求,比如凌晨(5:00-6:00)这样的想分成一个词。
7条答案
按热度按时间kq0g1dla1#
5小时,7千克,0.01毫米
hkmswyz62#
5小时,7千克,0.01毫米
请教下这种词语是如何分词的,做到识别是一个完整的意思
i2loujxw3#
@isafe , 目前还不支持。有开源分词组件支持正则词典的?
qc6wkl3g4#
好像不支持,有个问题想请教下,我用 jieba提取关键字,提取的内容中是中英文混合的
比如 sentence = “beijing,北京欢迎你”
jieba.analyse.extract_tags(sentence,1),比如这样出来的可能是“北京” 但是我想要第一个出来的是欢迎 怎么调整?
2014-07-29 19:02 GMT+08:00 Sun Junyi notifications@github.com :
@isafe https://github.com/isafe , 目前还不支持。有开源分词组件支持正则词典的?
—
Reply to this email directly or view it on GitHub
#172 (comment).
k10s72fa5#
@isafe 這樣你要調整 idf.txt 裡面歡迎的權重值,目前最新版的 jieba 可以切換 idf 語料庫,這樣你就可以調整成你想要的權重值~ 不過建議 idf 的權重值應該還是要自己蒐集足夠量的文本之後計算出每個詞的 idf 權重值會比較客觀
6qfn3psc6#
@fxsjy 你说的开源分词组建是哪个?
8iwquhpp7#
我倒是也有类似的需求,比如凌晨(5:00-6:00)这样的想分成一个词。