删除所有非字母数字字符,但允许多字术语

anauzrmj  于 2021-07-08  发布在  Java
关注(0)|答案(1)|浏览(303)

对于mapreduce的工作,我试图删除所有非字母数字字符,如果不是首字母缩略词的话,我会把标记的词干改成小写,但我想允许使用“改变生活”这样的多词术语。这就是我到目前为止所做的,我应该如何改变它?

String line = value.toString();

         StringTokenizer itr = new StringTokenizer(line);

         while (itr.hasMoreTokens())
         { 
            String token = stem(caseFold(itr.nextToken())); 
            token=token.replaceAll("^[^a-zA-Z0-9]*|[^a-zA-Z0-9]*$", "");

             ....
         }
fdx2calv

fdx2calv1#

你能使用公开的字典API吗,比如dictionaryapi.com

相关问题