我已经在自然语言处理方面工作,并经常需要了解哪些词汇出现在某些语料库中。许多词典由词干组成,需要从句子中提取词干。例如,特定的词汇可以是关键线索或携带重要信息,需要提取包含这些词汇的句子,或者使用它们处理句子信息。在这个背景下,我在stem/wordnet.py中开发了一个名为AutoLemmatizer的类,该类自动执行分词和基于词性的词形还原,返回句子中所有单词的词形还原结果。我还考虑将'n't'转换为'not',但尚未实现,因为我不能确定这是否是一个好主意。
mlnl4t2r1#
这个问题已通过#3257全请求解决。
1条答案
按热度按时间mlnl4t2r1#
这个问题已通过#3257全请求解决。