基于 TextRank 算法的关键词抽取
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用,接口相同,注意默认过滤词性。
jieba.analyse.TextRank() 新建自定义 TextRank 实例
算法论文: TextRank: Bringing Order into Texts
基本思想:
将待抽取关键词的文本进行分词
以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图
计算图中节点的PageRank,注意是无向带权图
我在使用textrank的时候想调整滑动窗口为2,上面说窗口大小默认为5,但找不到span在哪里,求帮助!
2条答案
按热度按时间lymgl2op1#
搞掂了,原来要新建一个对象,然后改属性,例如:
text = jieba.analyse.TextRank()
text.span = 2
flvlnr442#
接下来的使用方式是:
text.textrank(content, topK=10, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))