我正在尝试在另一个数据库中输入一些数据。但是,要做到这一点,我需要比较几个变量,每个变量都有一个权重。另外,我需要使用KEY变量形成对,这是我数据中的id。
我试图使用compare.linkage
,但我找不到一种方法来插入我想要的重量,例如40%到Age
,40%到CHBORN
,20%到URBAN
。
Complete <- data.frame(KEY = c(001, 002, 003), AGE = c(35, 38, 45), CHBORN = c(2, 3, 4), URBAN = c(1, 2, 2))
incomplete <- data.frame(KEY = c(004, 005, 006), AGE = c(25, 38, 45), CHBORN = c(1, 2, 4), URBAN = c(2, 1, 1))
KEY_Pairs <- compare.linkage(incomplete, complete, blockfld = c(2, 3, 4), strcmp = TRUE, strcmpfun = levenshteinSim()) #I stopped here
我想找到一个与此类似的结果:
KEY_incomplete KEY_complete Scores
004 001 0.95
通常,我使用埃默里大学的FRIL软件来做这件事,但我想把所有东西都集中在R
上。
最好,
泰雷扎
该软件包是RecordLinkage:https://cran.r-project.org/web/packages/RecordLinkage/RecordLinkage.pdf