我想知道从大量的文本语料库中去除停止词的有效方法。目前我的方法是将stopword-in转换为regex,将文本行与regex匹配并删除它。
例如
String regex ="\\b(?:a|an|the|was|i)\\b\\s*";
String line = "hi this is regex approach of stop word removal";
String lineWithoutStopword = line.replaceAll(regex,"");
有没有其他有效的方法可以从巨大的corupus中删除stopwords。
谢谢
1条答案
按热度按时间yyhrrdl81#
使用spark,一种方法是在文本被标记为单词之后从文本中减去停止词。
如果您需要处理非常大的文本文件(>>gbs),那么将stopwords集视为可以广播给每个worker的内存结构会更有效。
代码将如下更改:
请注意,规范化的话,原文将是必要的,这将正常工作。