我在R中有一个停用词的字符向量:
stopwords = c("a" ,
"able" ,
"about" ,
"above" ,
"abst" ,
"accordance" ,
...
"yourself" ,
"yourselves" ,
"you've" ,
"z" ,
"zero")
假设我有一个字符串:
第一个月
如何从str
中删除已定义的停止词?
我认为gsub
或另一个grep
工具可能是实现这一目标的一个很好的候选工具,尽管其他建议也是受欢迎的。
3条答案
按热度按时间waxmsbnn1#
试试这个:
k97glaaz2#
您可以使用
tm
库来执行此操作:xzabzqsa3#
如果你想让代码向量化很多句子,而不仅仅是一个句子,这里有另一个函数选项,它借用了Mikko最初答案的内容。