我有一个看起来像这样的变量:
我想让受害者的国籍“弹出”。所以“乌克兰国家实体”将单独显示为“乌克兰”。有700多个条目,所有不同的国家,所以比利时,缅甸等...
我没有文本挖掘的经验(老实说R也没有),所以我用了我在课堂上看到的东西,并试图把它们放在一起。
以下是我的推理:
1.将“受害者”分成单独的单词:
d_tokenized = state_cyberattacks_csv %>%
filter(Category == 'Government')%>%
select(Date, Sponsor, Victims) %>%
unnest_tokens(word, Victims)
1.删除未出现在Demonym数据框的“Demonym”列中的单词
d_tokenized_s = d_tokenized %>%
anti_join(demonym_list, by != "Demonym")
我知道它不工作,由于“!=”,因为它没有意义。我试图找到其他方法,使用join,str_extract,str_subset等...但我不明白他们在做什么,老实说。
我应该使用哪个函数?
此外,有一个问题,直接有国家名称,而不是一个demonym的条目,这将是删除,如果我找到一种方法,使用类似于anti-join,删除不匹配的东西与“Demonym”。
1条答案
按热度按时间w8f9ii691#
如果只有“乌克兰国家实体”需要更换。
如果所有带“乌克兰语”的都需要更换
创建于2023-04-21使用reprex v2.0.2