我需要使用javaweb应用程序从保存为文本文件的新闻数据中提取关键字。我使用语言r和仁金做这个文本挖掘(包tm从仁金网站)和提取关键字。这个脚本在rstudio中确实可以运行,但是不能在我的javaweb应用程序中使用renjin运行。每当我试图创建一个语料库时,这个异常就会发生。请给我一个解决办法。
org.renjin.eval.evalexception:名称空间组织。renjin:tools has 没有名为“.get\u internal\u s3\u generics”的符号
我的r脚本文件读取txt文件,并将关键字及其频率写入csv文件,如下所示:
library(tm)
library(SnowballC)
setwd('/home/lalkrishna/Desktop/keywordtest/')
newsfile <- scan(file = "0e3cdf1b-8fa4-4df0-8977-906d5865008b.txt",what = character() )
news_Corpus <- Corpus(VectorSource(newsfile))
news_Corpus <- tm_map(news_Corpus, removePunctuation)
news_Corpus <- tm_map(news_Corpus, removeNumbers)
news_Corpus <- tm_map(news_Corpus, tolower)
new_stopwords = scan("/home/lalkrishna/Desktop/keywordtest/stop-wordlist.csv", what = character())
updated_stopword_list = c(stopwords("english"),new_stopwords)
news_Corpus <- tm_map(news_Corpus, removeWords, updated_stopword_list)
news_Corpus <- tm_map(news_Corpus, stemDocument)
news_Corpus <- tm_map(news_Corpus, stripWhitespace)
news_Corpus <- tm_map(news_Corpus, PlainTextDocument)
dtm <- DocumentTermMatrix(news_Corpus)
tdm <- TermDocumentMatrix(news_Corpus)
freqs <- as.data.frame(inspect(dtm))
colSums(freqs)
which(apply(tdm, 1, sum) > 2)
write.csv(colSums(freqs), file = "term-freq.csv")
暂无答案!
目前还没有任何答案,快来回答吧!