jieba 请问dict.txt是通过什么规则得到的呢?

eagi6jfj  于 4个月前  发布在  其他
关注(0)|答案(8)|浏览(49)

No description provided.

gv8xihay

gv8xihay1#

你没看代码吗?

siotufzp

siotufzp2#

哎,作者就是不爱写注释,哎。

7hiiyaii

7hiiyaii3#

@ilqxejraha 谢谢您,可能是我表达有误,我是想问词汇库里面的词汇和词频是人工统计的吗?还是通过其它的方法。

x9ybnkn6

x9ybnkn64#

统计过来的。最后得到了就是这么一个模型。

kse8i1jr

kse8i1jr5#

你在源码中看到词频的使用了吗?

vecaoik1

vecaoik16#

具体的统计词频,词频的作用可能体现在,一个词存在多个意思。
比如英语中,经常有一个词会有很多个意思。

比如出现一个词,并且,这个词有很多种解释,这时候词频可能会对词意的选择有一定帮助。

具体的其他算法hmm的我还没看。

7ivaypg9

7ivaypg97#

@KevinDotW 据说是基于人民日报的语料库,我也想知道怎么才能创建自己的词典

vmjh9lq9

vmjh9lq98#

请问下大家jieba词典的是如何训练得到的吗

相关问题