我有一个假设的 Dataframe ,其中包含hashtags
和username
列。
hashtags <- c("['mancity', 'naomicampell']","['PaTvUpdates']","['SputnikV']","['sputnikvaccineregistration', 'UnlockOurCountry', 'AstraZeneca', 'coronaInaua']",
"['Africa', 'Sinopharm', 'Sinopham', 'vaccine', 'vaccinedeaths']", "['Sinopharm', 'COVID']")
username <- c("a","b","z","x","d","w")
twts <- data.frame(hashtags, username)
我想拆分标签,这样我就可以得到每个标签在列hashtag
中出现的频率,我该怎么做呢?
我没有可复制的代码,因为我是regex的新手
3条答案
按热度按时间cwtwac6a1#
在
py_eval
的帮助下,我们可以用python的方式解析单词或
7gcisfzg2#
使用
stringr
保留标记中的空格
pexxcrt23#
使用gregexpr/regmatches、
unlist
将列表提取到一个向量中,并使用table
获取base R
中的频率计数或者在管子里