jieba 如何生成自定义的逆向文件频率（IDF）文本语料库？

all_dict = {}
for line in lines:
    temp_dict = {}
    total += 1
    cut_line = jieba.cut(line, cut_all=False)
    for word in cut_line:
        temp_dict[word] = 1
    for key in temp_dict:
        num = all_dict.get(key, 0)
        all_dict[key] = num + 1
for key in all_dict:
    w = key.encode('utf-8')
    p = '%.10f' % (math.log10(total/(all_dict[key] + 1)))

赞(0）回复(0）举报 2023-02-04

r3i60tvu5#

@M2shad0w 非常感谢！还有一个问题：

假设通用IDF语料库里有A B C三个词语及其idf值，我自定义的IDF语料库里有A B D及其idf值，那么请问，在添加自定义的IDF语料库后：

自定义IDF语料库里的A和B及其相应idf值就直接覆盖通用IDF语料库里的A和B吧？
通用IDF语料库里原先的C及其idf值，现在还有吗？

赞(0）回复(0）举报 2023-02-04

mec1mxoz6#

@siberiawolf61
我看了一下结巴库中 load idf path 的代码
https://github.com/fxsjy/jieba/blob/master/jieba/analyse/tfidf.py#L65

class TFIDF(KeywordExtractor):

    def __init__(self, idf_path=None):
        self.tokenizer = jieba.dt
        self.postokenizer = jieba.posseg.dt
        self.stop_words = self.STOP_WORDS.copy()
        self.idf_loader = IDFLoader(idf_path or DEFAULT_IDF)
        self.idf_freq, self.median_idf = self.idf_loader.get_idf()

...

self.idf_loader = IDFLoader(idf_path or DEFAULT_IDF)

应该是覆盖了，c值的 idf 也没有了

赞(0）回复(0）举报 2023-02-04

uurity8g7#

@M2shad0w 好的，谢谢啊！

赞(0）回复(0）举报 2023-02-04

x8goxv8g8#

感谢！

赞(0）回复(0）举报 2023-02-04