在 2018年10月24日,11:11,Bakkan Hwang ***@***.***> 写道: 需求: 要求匹配出内容的指定的一些关键词(我自己的词库里的词),忽略jieba里千千万万不相关的词,对于我来说,这些词没有用。 实现: 我想的是,把jieba默认的词库替换掉。可是,我看文档里没有提到如何替换jieba的词库 还有什么好的办法实现吗? 谢谢各位 — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or mute the thread.
2条答案
按热度按时间2skhul331#
你可以用jieba的自定义字典实现准确识别 中铁建资产管理有限公司 高正 18601064889…
在 2018年10月24日,11:11,Bakkan Hwang ***@***.***> 写道: 需求: 要求匹配出内容的指定的一些关键词(我自己的词库里的词),忽略jieba里千千万万不相关的词,对于我来说,这些词没有用。 实现: 我想的是,把jieba默认的词库替换掉。可是,我看文档里没有提到如何替换jieba的词库 还有什么好的办法实现吗? 谢谢各位 — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or mute the thread.
pkmbmrz72#
jieba有实现延时加载机制
jieba 采用延迟加载,import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba,也可以手动初始化。
在 0.28 之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径:
例子: https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py