我有一个数据框,其中包含许多变量和观察值的百分比值,如下所示:
obs <- data.frame(Site = c("A", "B", "C"), X = c(11, 22, 33), Y = c(44, 55, 66), Z = c(77, 88, 99))
我需要将此数据准备为用于网络分析的边列表,其中“站点”作为节点,其余变量作为边。结果应该如下所示:
Node1 Node2 Weight Type
A B 33 X
A C 44 X
...
B C 187 Z
因此,对于“权重”,我们正在计算所有可能对的总和,并且对每一列分别计算(最终以“类型”表示)。
我想这个问题的答案必须是在
apply
表达式上使用 combn
,就像这里 将 Combn() 函数应用于数据框,但我还没有完全弄清楚。
我可以通过手动组合“站点”来完成这一切
sites <- combn(obs$Site, 2)
然后各个列就像这样
combA <- combn(obs$A, 2, function(x) sum(x)
并将这些数据集绑定在一起,但这显然很快就会变得烦人。
我尝试像这样一次性完成所有变量列
b <- apply(newdf[, -1], 1, function(x){
sum(utils::combn(x, 2))
}
)
但这有问题。 请问有人可以帮忙吗?
一种选择是创建一个函数,然后
map
将该函数应用于您拥有的所有列。
func1 <- function(var){
obs %>%
transmute(Node1 = combn(Site, 2)[1, ],
Node2 = combn(Site, 2)[2, ],
Weight = combn(!!sym(var), 2, function(x) sum(x)),
Type = var)
}
map(colnames(obs)[-1], func1) %>% bind_rows()
这是一个使用
combn
的示例
do.call(
rbind,
combn(1:nrow(obs),
2,
FUN = function(k) cbind(data.frame(t(obs[k, 1])), stack(data.frame(as.list(colSums(obs[k, -1]))))),
simplify = FALSE
)
)
这给出了
X1 X2 values ind
1 A B 33 X
2 A B 99 Y
3 A B 165 Z
4 A C 44 X
5 A C 110 Y
6 A C 176 Z
7 B C 55 X
8 B C 121 Y
9 B C 187 Z
试试这个方法
library(tidyverse)
obs_long <- obs %>% pivot_longer(-Site, names_to = "type")
sites <- combn(obs$Site, 2) %>% t() %>% as_tibble()
Type <- tibble(type = c("X", "Y", "Z"))
merge(sites, Type) %>%
left_join(obs_long, by = c("V1" = "Site", "type" = "type")) %>%
left_join(obs_long, by = c("V2" = "Site", "type" = "type")) %>%
mutate(res = value.x + value.y) %>%
select(-c(value.x, value.y))
V1 V2 type res
1 A B X 33
2 A C X 44
3 B C X 55
4 A B Y 99
5 A C Y 110
6 B C Y 121
7 A B Z 165
8 A C Z 176
9 B C Z 187
您可以使用
combn
功能:
combn(length(list1), 2, FUN = function(x) {
setNames(identical(list1[[x[1]]], list1[[x[2]]]), paste(x, collapse = ", "))
}, simplify = FALSE)
[[1]]
1, 2
FALSE
[[2]]
1, 3
FALSE
[[3]]
1, 4
FALSE
[[4]]
2, 3
FALSE
[[5]]
2, 4
FALSE
[[6]]
3, 4
TRUE
如果您只想要最终数字而不需要索引详细信息,则可以删除名称并使用
simplify
。