对于mapreduce的工作,我试图删除所有非字母数字字符,如果不是首字母缩略词的话,我会把标记的词干改成小写,但我想允许使用“改变生活”这样的多词术语。这就是我到目前为止所做的,我应该如何改变它?
String line = value.toString();
StringTokenizer itr = new StringTokenizer(line);
while (itr.hasMoreTokens())
{
String token = stem(caseFold(itr.nextToken()));
token=token.replaceAll("^[^a-zA-Z0-9]*|[^a-zA-Z0-9]*$", "");
....
}
1条答案
按热度按时间fdx2calv1#
你能使用公开的字典API吗,比如dictionaryapi.com