jieba 关键词抽取处理停用词时的一个UE设计问题

vbkedwbf 于 2022-11-19 发布在其他

关注(0)|答案(1)|浏览(181)

我几个月前下了jieba使用，发现抽取关键词时，停用词未做处理，所以在网上找了几个停用词表merge以后，手工做了处理。
现在看已经增加了自定义停用词表功能，不过我个人建议是：
1.需要有一个默认的停用词表，在不附带任何选项的情况下，analyse.extract_tags()应该返回经过默认停用词表处理后的结果。
2.假如有人不愿意要停用词，可以在该函数增加一个选项禁用停用词表。
3.假如有人想用自己的停用词表，和现在一样以增设自定义词典的处理即可。

附件为我目前使用的停用词表
stop_words.txt

jieba

来源：https://github.com/fxsjy/jieba/issues/357