能否替换jieba使用的词库,而不是补充jieba的词库?

agxfikkp  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(29)

需求:
要求匹配出内容的指定的一些关键词(我自己的词库里的词),忽略jieba里千千万万不相关的词,对于我来说,这些词没有用。

实现:
我想的是,把jieba默认的词库替换掉。可是,我看文档里没有提到如何替换jieba的词库
还有什么好的办法实现吗?

谢谢各位

2skhul33

2skhul331#

你可以用jieba的自定义字典实现准确识别 中铁建资产管理有限公司 高正 18601064889…

在 2018年10月24日,11:11,Bakkan Hwang ***@***.***> 写道: 需求: 要求匹配出内容的指定的一些关键词(我自己的词库里的词),忽略jieba里千千万万不相关的词,对于我来说,这些词没有用。 实现: 我想的是,把jieba默认的词库替换掉。可是,我看文档里没有提到如何替换jieba的词库 还有什么好的办法实现吗? 谢谢各位 — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or mute the thread.

pkmbmrz7

pkmbmrz72#

jieba有实现延时加载机制

jieba 采用延迟加载,import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba,也可以手动初始化。

import jieba
jieba.initialize()  # 手动初始化(可选)

在 0.28 之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径:

jieba.set_dictionary('data/dict.txt.big')

例子: https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py

相关问题