nltk 将更多的英文简写词作为停用词

mmvthczy  于 5个月前  发布在  其他
关注(0)|答案(6)|浏览(60)

根据#1800#2588的讨论,英语停用词列表中缺少一些简短/否定/时态形式:
i'm, i've, i'll, i'd(与其他代词的缩写保持一致)
cannot, could've, mayn, mayn't(与其他情态动词的缩写保持一致)
ought, oughtn, oughtn't, dare, daren, daren't(另外两个情态动词)
我不确定是应该向nltk还是向nltk_data提交问题或PR,所以我只是将更新后的列表粘贴在这里...

注意事项:

  1. 只有代词和情态动词被修改。
  2. 一些单词被重新排序以使结构更清晰。
  3. 不是所有可能的简短形式都被添加。例如,amn't, how's, when's,以及其他一些方言或过于非正式的形式。我只是检查MW词典,如果有这个形式的条目,并且主要不是方言使用,那么就将其添加到这里。
q43xntqr

q43xntqr1#

这是一个很好的观察!目前我正在手动添加它们,如下所示:

STOPWORDS = nltk.corpus.stopwords.words('english')
my_custom_stopwords = ['btw', "n't","'s","—", "i'm", "'m", "i've", "ive", "'d", "i'd"]
STOPWORDS.extend(my_custom_stopwords)
print(len(STOPWORDS), STOPWORDS)

UNIQUE_STOPWORDS = set(STOPWORDS)
print(len(UNIQUE_STOPWORDS), UNIQUE_STOPWORDS)

这似乎相当令人沮丧👎!
有没有更智能的方法来处理这个问题?

eqqqjvef

eqqqjvef2#

你好,大家好!
有人在做这个改进吗?
如果没有,我想为这个做出贡献。

z4iuyo4d

z4iuyo4d3#

我认为不是。也许你可以在nltk-data上发起一个PR来修复这两个问题(以及当前的问题)。

h79rfbju

h79rfbju4#

你好@BLKSerene,
我不确定你指的是nltk_data中的哪个问题。你能帮我找到它吗?

jdgnovmf

jdgnovmf5#

@SanikaParanjpe #1800#2588 提到的上述问题,以及当前的问题。
我的意思是,也许PR应该在 nltk_data 中打开,而不是在主仓库 nltk 中打开(不确定)。

7gs2gvoe

7gs2gvoe6#

明白了!非常感谢。我将开始着手处理这个问题。

相关问题