根据#1800和#2588的讨论,英语停用词列表中缺少一些简短/否定/时态形式:i'm, i've, i'll, i'd
(与其他代词的缩写保持一致)cannot, could've, mayn, mayn't
(与其他情态动词的缩写保持一致)ought, oughtn, oughtn't, dare, daren, daren't
(另外两个情态动词)
我不确定是应该向nltk
还是向nltk_data
提交问题或PR,所以我只是将更新后的列表粘贴在这里...
注意事项:
- 只有代词和情态动词被修改。
- 一些单词被重新排序以使结构更清晰。
- 不是所有可能的简短形式都被添加。例如,
amn't, how's, when's
,以及其他一些方言或过于非正式的形式。我只是检查MW词典,如果有这个形式的条目,并且主要不是方言使用,那么就将其添加到这里。
6条答案
按热度按时间q43xntqr1#
这是一个很好的观察!目前我正在手动添加它们,如下所示:
这似乎相当令人沮丧👎!
有没有更智能的方法来处理这个问题?
eqqqjvef2#
你好,大家好!
有人在做这个改进吗?
如果没有,我想为这个做出贡献。
z4iuyo4d3#
我认为不是。也许你可以在
nltk-data
上发起一个PR来修复这两个问题(以及当前的问题)。h79rfbju4#
你好@BLKSerene,
我不确定你指的是nltk_data中的哪个问题。你能帮我找到它吗?
jdgnovmf5#
@SanikaParanjpe #1800 和 #2588 提到的上述问题,以及当前的问题。
我的意思是,也许PR应该在
nltk_data
中打开,而不是在主仓库nltk
中打开(不确定)。7gs2gvoe6#
明白了!非常感谢。我将开始着手处理这个问题。