我在标题问题上遇到了3个问题。
为什么必须进行正常性测试?检查数据是否不平衡?
这4种检查数据是否遵循正态分布标准的方法都适用于数值变量和分类变量吗?我正尝试通过以下4种方法检查数据是否遵循正态分布。
Normal Dist的偏度为0,Normal Dist的峰度为3。是否存在我可以使用的确定范围以确保数据是正态分布的? (例如0 +/- 1或3 +/- 1)
[许多老师建议测试正常性,因为这是他们被教导要做的。实际含义通常大不相同。我们测试正态性是因为测试统计信息及其结果分布是在假设数据为正态分布的前提下得出的。
在许多情况下,中心极限定理将克服几乎所有与正态的“偏离”,因为测试比原始数据更依赖样本均值的样本分布。作为粗略的经验法则,只要数据近似对称且是单峰的,则测试或方法将执行得很好。例如,这就是为什么y是整数值(值在中等范围内)进行回归的原因,即使按照定义,y显然不正常。
如果您对新值的预测感兴趣,而不是对均值的推断感兴趣,那么正态性很重要。但是大多数时候,正常化的重要性完全被过分强调。