我想让受害者的国籍“蹦出来”。因此,“乌克兰国家实体”将仅显示为“乌克兰”。
于是我做了一个,恶魔名对应国名。我没有文本挖掘方面的经验(老实说 R 也没有),所以我使用了我在课堂上看到的东西并尝试将它们放在一起。
这是我的理由:
d_tokenized = state_cyberattacks_csv %>%
filter(Category == 'Government')%>%
select(Date, Sponsor, Victims) %>%
unnest_tokens(word, Victims)
d_tokenized_s = d_tokenized %>%
anti_join(demonym_list, by != "Demonym")
我知道由于“!=”它不起作用,因为它没有意义。我试图找到其他方法,使用 join、str_extract、str_subset 等……但老实说,我不明白他们在做什么。
我应该使用哪个功能? 此外,直接输入国家名称而不是 demonym 的条目存在问题,如果我确实找到一种方法来使用类似于 anti_join 的方法来删除与“Demonym”不匹配的内容,它将被删除。