我有两个具有两个地址列的数据集。我想通过公共地址合并两个数据集。但是某些地址是交叉路口,并且每个数据集中的街道名称顺序都不同。有没有办法让Rstudio逐字比较字符串,如果有两个以上的单词匹配,请告诉我?一个例子是:
“” CABOT ST AT RUGGLES ST“和” RUGGLES ST AT CABOT ST“
我不确定仅将两个字符串中的两个以上相似单词进行比较就足以解决您的问题。但是,可以使用str_split
包中的stringr
函数来完成此操作:
ad_1 <- "CABOT ST AT RUGGLES ST"
ad_2 <- "RUGGLES ST AT CABOT ST"
ad_1_d <- unique(str_split(ad_1, " ")[[1]])
ad_2_d <- unique(str_split(ad_2, " ")[[1]])
if (sum(ad_1_d %in% ad_2_d) >= 2 || sum(ad_2_d %in% ad_1_d) >= 2) {
message("Similar addresses.")
}