非正态分布的大样本可以计算t检验吗?

问题描述 投票:0回答:1

非正态分布的大样本可以计算t检验吗?

例如A组用户数为100K,B组用户数为100K。我想测试一下这两组的平均会话持续时间是否具有统计显着性。

第一种方法)我们将这些用户在 AB 测试后的第二天(DAY1)的平均会话持续时间计算为

  • A组31.2分钟
  • B组30.2分钟。

我们知道A组和B组中的用户的DAY1会话值呈非正态分布。 在这种情况下,使用两个样本 t 检验来测试两组的 DAY1 平均会话持续时间是否正确? (我们接受n=100K) (一些消息来源称,即使是非正态分布,计算大样本的 t 分数也会给出准确的结果。)

第二种方法)在 AB 测试开放当天计算每日平均会话持续时间的 t 分数是否是正确的方法? 例如;在下面的场景中,计算A组和B组中10万用户的平均每日会话时长。我们将接受此处的天数作为观测数,并得到 n=30。 我们还将计算 n=30 上的双样本 t 检验计算。

团体 第 0 天平均持续时间 第 1 天平均持续时间 第 2 天平均持续时间 ... 第30天AV持续时间
A 30.2 31.2 32.4 ... 33.2
B 29.1 30.2 30.4 ... 30.1

这些方法是否能给出正确的结果,或者在这种情况下是否有必要应用其他方法? AB检验中大样本计算t检验有意义吗?

statistics data-science normal-distribution ab-testing t-test
1个回答
1
投票

t 检验假设从总体中抽取的不同样本的均值呈正态分布。它并不假设人口本身呈正态分布。

对于方差有限的总体,中心极限定理表明总体样本的均值呈正态分布。然而,均值分布近似正态所需的样本量取决于总体的非正态程度。 t 检验对于非正态总体分布的小样本无效,但对于非正态分布的大样本有效。

方法 1 之所以有效,是因为这个原因(大样本量 ~100K),并且您是正确的,计算大样本的 t 分数即使在非正态分布的情况下也会给出准确的结果。 [您还可以考虑对您正在使用的样本大小 (100K) 使用 z 检验。 T 检验更适合较小的样本量,例如 n < 30]

方法 2 有效,因为根据中心极限定理,在给定足够样本的情况下,每日平均值应呈正态分布。花费时间的数据集可能会出现偏差,但通常效果良好。

© www.soinside.com 2019 - 2024. All rights reserved.