我知道可能会问类似的问题,但我觉得我的要求很特殊。我有两个数据框,其中我拼写错误的单词,还有另一个数据框,其中我已手动纠正了此问题。
我需要替换另一个数据帧中存在的正确单词。您能否告诉我是否有最佳方法。
a
b
corr_report_terms=list() # created empty list.
for(i in a){
str_split(i," ")
if(any(i %in% b))
corr_report_terms <- b$correct
}
预期输出:一个
腹部疼痛腹痛腹部
棘手但有效:
library(stringi)
stri_replace_all_regex(a$reported_terms, "\\b"%s+%b$wrong%s+%"\\b", b$correct, vectorize_all=FALSE)
[1] "abdomen pain" "abdominal ache" "abdomen"