如何删除某些列的重复行,并保留一行具有非重复列的特定值/字符?
换句话说:如何选择要保留的行,另一行使用一些重复的列删除
这是针对R data.frame的。
我已经尝试过:
Data.frame是X.
deduped.data <- unique( X[ , 1:5 ] )
问题:我不能保持列与非重复行
X <- X %>% distinct()
问题:我无法分辨哪些行可以删除某些列中的重复项
在以前的问题列表中,我找不到答案:可以保留/删除哪一行的信息
deduped.data <- unique( X[ , 1:5 ] )
X <- X %>% distinct()
一个例子
Data.frame X:
第1行:性别:男,年龄:20,国家:意大利
第2行:性别:男,年龄:20,国家:法国
第3行等
我想删除第1列和第2列的副本并保留Country Italy。我希望第2行被删除。就我所见,unique()
和distinct()
都可以做到这一点。
这将删除重复项,您可以在重复的参数中指定列。如果你想保留非重复项,你可以删除!
X <- X[, !duplicated(colnames(X))]