我的数据有大量缺失值,因此我无法使用 na.omit() 默认值对我的数据集进行下游分析,因为即使有一个值缺失,这也会删除整行。据我了解,mice 包是执行如此多的连续数据插补的可靠方法,但在执行complete() 函数后,我的观察数量从 ~60 跃升至 300。
这是我的代码,跳转似乎在其中:
imputed_data <- mice(mydata, m = 5, method = "pmm", seed = 123)
pooled_data <- complete(imputed_data, "long", include = FALSE)
为什么会出现这种情况,我是否仍然能够对此数据框进行下游降维和统计测试,并使其能够代表原始数据集?这是我的估算目标。如果有更好的方法来执行这种插补,我也很有兴趣学习。预先感谢!