在计算两个具有缺失值的变量之间的多元相关性时,
cor_auto
提供不同的输出,缺失参数设置为“listwise”与“pairwise”,例如:
library(qgraph)
set.seed(5)
df<-data.frame(lapply(1:2,function(x)sample(1:6,100,replace = T)),
stringsAsFactors = F)
colnames(df)=c("a", "b")
# make some missing values
df[10:20,2]<-NA
# these are different
cor_auto(df[,c("a", "b")], missing = "listwise")
cor_auto(df[,c("a", "b")], missing = "pairwise")
我预计当只包含两个变量时,这些应该会产生相同的输出(仅包括两个变量都未丢失的情况)。有谁知道这种差异是怎么来的?
这里的基础函数是
lavaan::lavCor
,除了多元相关性之外,它还估计阈值。通过设置missing = "listwise"
,变量a
的阈值仅使用具有完整数据的行来估计,因此不同于用missing = "pairwise"
估计的阈值。这导致了差异。