词干算法未按预期工作(java)

nwlls2ji  于 2021-07-03  发布在  Java
关注(0)|答案(0)|浏览(279)

我试图用波特的词干算法从多个html文件中提取单词https://tartarus.org/martin/porterstemmer/java.txt
词干分析成功,但许多(大多数)词干分析错误(词干分析的单词不是真正的英语单词)。一开始它没有词干,因为我把所有的单词都大写了,因为某种原因,不能词干。因此,我把它们都改成小写。”例如,冠词“在词干之后会变成”articl“。
我这边的填塞做得不对吗?

//stemming will NOT work on upper case words 
            Stemmer s = new Stemmer();

            String lc = word.toLowerCase();

            //stemming the word
            if (stem) {

                s.add(lc.toCharArray(), lc.length());

                s.stem();

                lc = s.toString();

                word = lc.toUpperCase();

            }

            freq.add(word);

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题