all_dict = {}
for line in lines:
temp_dict = {}
total += 1
cut_line = jieba.cut(line, cut_all=False)
for word in cut_line:
temp_dict[word] = 1
for key in temp_dict:
num = all_dict.get(key, 0)
all_dict[key] = num + 1
for key in all_dict:
w = key.encode('utf-8')
p = '%.10f' % (math.log10(total/(all_dict[key] + 1)))
8条答案
按热度按时间fnvucqvd1#
还有2个问题:假设通用IDF语料库里有A B C三个词语及其idf值,我自定义IDF语料库里有A B D及其idf值,那么请问,在添加自定义的IDF语料库后:
(其实问题只有就1个:添加自定义IDF语料库后,是整个文件替换,还是说只有那些重复的词语才被替换?)
8fq7wneg2#
求助求助求助,没有朋友知道吗???
btqmn9zl3#
我也想做一个词库,满足自己的需求,自带的字库里有很多类似一一二/一一分/一三六八之类意义不大的词
pcrecxhr4#
line 是单个文档
r3i60tvu5#
@M2shad0w 非常感谢!还有一个问题:
假设通用IDF语料库里有A B C三个词语及其idf值,我自定义的IDF语料库里有A B D及其idf值,那么请问,在添加自定义的IDF语料库后:
mec1mxoz6#
@siberiawolf61
我看了一下 结巴库中 load idf path 的代码
https://github.com/fxsjy/jieba/blob/master/jieba/analyse/tfidf.py#L65
self.idf_loader = IDFLoader(idf_path or DEFAULT_IDF)
应该是覆盖了,c值的 idf 也没有了
uurity8g7#
@M2shad0w 好的,谢谢啊!
x8goxv8g8#
感谢!