我几个月前下了jieba使用,发现抽取关键词时,停用词未做处理,所以在网上找了几个停用词表merge以后,手工做了处理。
现在看已经增加了自定义停用词表功能,不过我个人建议是:
1.需要有一个默认的停用词表,在不附带任何选项的情况下,analyse.extract_tags()应该返回经过默认停用词表处理后的结果。
2.假如有人不愿意要停用词,可以在该函数增加一个选项禁用停用词表。
3.假如有人想用自己的停用词表,和现在一样以增设自定义词典的处理即可。
附件为我目前使用的停用词表
stop_words.txt
1条答案
按热度按时间cgfeq70w1#
这个改动建议和各选项的使用频率有关。90%以上的使用者在关键词抽取时是希望删去停用词的,因此应该作为默认选项使用。而不是让大家自己各显神通去找停用词表。