How to do a reverse anti_join in R?

问题描述 投票:0回答:0

我有一个看起来像这样的变量:variable

我想让受害者的国籍“蹦出来”。因此,“乌克兰国家实体”将仅显示为“乌克兰”。

于是我做了一个dataframe,恶魔名对应国名。我没有文本挖掘方面的经验(老实说 R 也没有),所以我使用了我在课堂上看到的东西并尝试将它们放在一起。

这是我的理由:

  1. 将“受害者”分成单独的词:
d_tokenized = state_cyberattacks_csv %>%
  filter(Category == 'Government')%>%
  select(Date, Sponsor, Victims) %>%
  unnest_tokens(word, Victims)
  1. 删除没有出现在 Demonym 数据框的“Demonym”列中的单词
d_tokenized_s = d_tokenized %>%
  anti_join(demonym_list, by != "Demonym")

我知道由于“!=”它不起作用,因为它没有意义。我试图找到其他方法,使用 join、str_extract、str_subset 等……但老实说,我不明白他们在做什么。

我应该使用哪个功能? 此外,直接输入国家名称而不是 demonym 的条目存在问题,如果我确实找到一种方法来使用类似于 anti_join 的方法来删除与“Demonym”不匹配的内容,它将被删除。

r text-mining
© www.soinside.com 2019 - 2024. All rights reserved.