我试图用波特的词干算法从多个html文件中提取单词https://tartarus.org/martin/porterstemmer/java.txt
词干分析成功,但许多(大多数)词干分析错误(词干分析的单词不是真正的英语单词)。一开始它没有词干,因为我把所有的单词都大写了,因为某种原因,不能词干。因此,我把它们都改成小写。”例如,冠词“在词干之后会变成”articl“。
我这边的填塞做得不对吗?
//stemming will NOT work on upper case words
Stemmer s = new Stemmer();
String lc = word.toLowerCase();
//stemming the word
if (stem) {
s.add(lc.toCharArray(), lc.length());
s.stem();
lc = s.toString();
word = lc.toUpperCase();
}
freq.add(word);
暂无答案!
目前还没有任何答案,快来回答吧!