我有一个很大的实验室数据库,一些ID具有多个结果,我还创建了另一个具有首字母+年龄+性别变量的关键变量,用于与医院病历的其他匹配。但是,我注意到有时不同的名字首字母具有相同的医院ID。我想编写一个函数来检测这种不一致性。
因此是数据库示例:
df=data.frame(ID=c("5606","5606","5728","5824","5824","5824","5824"),
key2=c("TN35M","TN35M","JJ26M","CD47F","CD47F","DG44M","DG44M"))
ID key2
5606 TN35M
5606 TN35M
5728 JJ26M
5824 CD47F
5824 CD47F
5824 DG44M
5824 DG44M
我如何比较同一“ ID”变量的“ key2”变量行,并有一个输出变量来检测所有不连贯的行?
喜欢:
ID key2 incoherence
5606 TN35M N
5606 TN35M N
5728 JJ26M N
5824 CD47F Y
5824 CD47F Y
5824 DG44M Y
5824 DG44M Y
Y
(或在这种情况下为TRUE
),即incoherence
中使用key2
和id进行详细说明