过滤多个列以及标准 - R.

问题描述 投票:2回答:1

我发现了很多类似的问题(123是其中的一部分),但没有一个能回答我的问题:

我有这些数据:

set.seed(100)
df <- data.frame(X = sample(1:10, 100, replace=TRUE),
                 Y = sample(11:90, 100, replace=TRUE),
                 Z = sample(1000:2000, 100, replace=TRUE),
                 stringsAsFactors = FALSE)
x <- data.frame(X = c(7, 5, 3, 9),
                     Y = c(14, 13, 19, 87),
                     stringsAsFactors = FALSE)

其中x是具有特定分组和计算的df的子集。现在,我试图通过两个df列过滤x。例如,对于df中的特定行,它必须是X=7Y=14TRUE,或X=5Y=13TRUE,如果FALSEX=7,它必须是Y<>14,依此类推。因此,标准必须同时考虑两个列。我试过这个:

> df[df$X == x$X & df$Y == x$Y,]
   X  Y    Z
28 9 87 1071

这给了我一个真正的价值,当我知道它必须至少为4(因为xdf的一个子集)

这是我正在寻找的(它给我0行):

df[df[,c("X","Y")] %in% x[,c("X","Y")],]

预期产出:

   X  Y    Z
16 7 14 1632
28 9 87 1071
30 3 19 1297
38 7 14 1701
67 5 13 1323
77 9 87 1484
88 3 19 1951
r dplyr data-manipulation
1个回答
1
投票

可能我们需要一个inner_join

library(dplyr)
inner_join(df, x)
#  X  Y    Z
#1 7 14 1632
#2 9 87 1071
#3 3 19 1297
#4 7 14 1701
#5 5 13 1323
#6 9 87 1484
#7 3 19 1951

如果我们还需要匹配行名称

df[do.call(paste, df[names(x)]) %in% do.call(paste, x),]
#   X  Y    Z
#16 7 14 1632
#28 9 87 1071
#30 3 19 1297
#38 7 14 1701
#67 5 13 1323
#77 9 87 1484
#88 3 19 1951
© www.soinside.com 2019 - 2024. All rights reserved.