R 中求对称差(交集相反)的函数?

问题描述 投票:0回答:4

问题

我有两个不同长度的字符串向量。每个向量都有一组不同的字符串。我想找到一个向量中但不在两个向量中的字符串;即,对称差

分析

我查看了函数 setdiff,但它的输出取决于向量的考虑顺序。我找到了自定义函数outersect,但是这个函数要求两个向量的长度相同。

有什么建议吗?

更正

这个问题似乎特定于我正在使用的数据。否则,下面的答案解决了我在这篇文章中提到的问题。我会看看我的数据有什么独特之处,如果我学到任何可能对其他用户有帮助的东西,我会发回来。

r xor intersect set-difference symmetric-difference
4个回答
23
投票

为什么不:

sym_diff <- function(a,b) setdiff(union(a,b), intersect(a,b))

10
投票

另一个更快一点的选项是:

sym_diff2 <- function(a,b) unique(c(setdiff(a,b), setdiff(b,a)))

如果我们将其与 Blue Magister 的答案进行比较:

sym_diff <- function(a,b) setdiff(union(a,b), intersect(a,b))

library(microbenchmark)
library(MASS)

set.seed(1)
cars1 <- sample(Cars93$Make, 70)
cars2 <- sample(Cars93$Make, 70)

microbenchmark(sym_diff(cars1, cars2), sym_diff2(cars1, cars2), times = 10000L)

>Unit: microseconds
>                  expr     min       lq     mean   median      uq      max neval
>sym_diff(cars1, cars2) 114.719 119.7785 150.7510 125.0410 131.177 12382.02 10000
>sym_diff2(cars1, cars2) 94.369 100.0205 121.6051 103.8285 109.239 12013.69 10000

identical(sym_diff(cars1, cars2), sym_diff2(cars1, cars2))
>[1] TRUE

当比较的样本较大(数千或更多)时,这两种方法之间的速度差异会增加,但我找不到可用于这么多变量的示例数据集。


2
投票

这是另一个对称差分函数,这个函数来自定义(例如,可以在问题中链接的维基百科页面中看到)。

sym_diff3 <- function(a, b) union(setdiff(a, b), setdiff(b, a))

在用户 sebpardothis other answer 中的测试运行中包含该功能,给出的时间大致相同,但速度稍慢。输出省略。

identical(sym_diff(cars1, cars2), sym_diff3(cars1, cars2))
#[1] TRUE

microbenchmark(sym_diff(cars1, cars2),
               sym_diff2(cars1, cars2), 
               sym_diff3(cars1, cars2),
               times = 10000L)

2
投票

您可以在

symdiff
中使用
dplyr
,因为
1.1.0
:

library(dplyr)
symdiff(1:3, 3:5)
#[1] 1 2 4 5
© www.soinside.com 2019 - 2024. All rights reserved.