如何确定缺失值是MAR,MCAR还是MNAR

问题描述 投票:0回答:1

我有一个庞大的蛋白质组学数据集。在行中我有蛋白质,在行中我有样品。数据集包含很多缺失值。我想知道我可以找出缺失值是MAR,MCAR还是MNAR,以及如何确定最佳插补技术。亲切的问候。

r imputation
1个回答
0
投票

首先让我们了解每个部分:

MCAR

完全完全随机丢失-观察值是否缺失不是由观察值决定的(即,损益表中的缺失值与收入的高低无关),并且不能由另一个观察值(即,由于受访者的年龄而不会缺少最喜欢的浏览器的答案)。它确实是随机丢失的。

这里您可以使用最简单的插补方法,或者在可行的情况下删除数据,但是您永远无法证明数据是MCAR。相反,您必须证明它不太可能是MAR或MNAR。

MAR

不是听起来的(随机丢失),它仅表示与观察值随机相关的数据丢失,而不与其他变量相关的随机丢失。

如果缺失值与数据集中的任何其他变量相关联(例如,缺失值的百分比因其他变量而有显着差异),您将识别出此错误。

如果是这种情况,则必须使用更复杂的插补方法,例如MICE或至少分组的中位数/均值插补。

MNAR

MNAR(不是随机丢失)是HARD。它假定丢失的变量中有一个确定的模式,但是与我们可以在数据中观察到的任何特征都不相关。

[可能是因为值本身与缺失值相关(例如,未报告较高的收入),或者缺失值是由我们数据中未包含的另一个功能产生的(例如,随着时间的推移,刻度逐渐磨损,对较小权重的测量越来越少)。

您确实必须找到更多数据来解决此问题。

摘要

除非您是学者,否则举证责任可能很低,因此MAR是一个很好的标准假设,应予以检查。

否则请记住:

MCAR-一切都很好,取消了资产净值或插补

MAR-注意,请使用像MICE这样的高级插补方法

MNAR-您性交,获取新的/更多数据

© www.soinside.com 2019 - 2024. All rights reserved.