假设正态分布,我有样本数据,我想计算置信区间。
我已经找到并安装了numpy和scipy软件包,并且已经很难恢复平均值和标准差(numpy.mean(数据),数据是列表)。任何关于获得样本置信区间的建议都会非常感激。
import numpy as np
import scipy.stats
def mean_confidence_interval(data, confidence=0.95):
a = 1.0 * np.array(data)
n = len(a)
m, se = np.mean(a), scipy.stats.sem(a)
h = se * scipy.stats.t.ppf((1 + confidence) / 2., n-1)
return m, m-h, m+h
你可以这样计算。
这里是shasan代码的缩短版本,计算数组a
平均值的95%置信区间:
import numpy as np, scipy.stats as st
st.t.interval(0.95, len(a)-1, loc=np.mean(a), scale=st.sem(a))
但是使用StatsModels的tconfint_mean可以说更好:
import statsmodels.stats.api as sms
sms.DescrStatsW(a).tconfint_mean()
两者的基本假设是样本(数组a
)独立于具有未知标准偏差的正态分布(参见MathWorld或Wikipedia)。
对于大样本大小n,样本均值是正态分布的,并且可以使用st.norm.interval()
计算其置信区间(如Jaime的评论中所建议的)。但是上述解决方案对于小n也是正确的,其中st.norm.interval()
给出了太窄的置信区间(即,“假信心”)。有关更多详细信息,请参阅我的answer以获得类似问题(以及Russ在此处的评论之一)。
这里有一个例子,其中正确的选项给出(基本上)相同的置信区间:
In [9]: a = range(10,14)
In [10]: mean_confidence_interval(a)
Out[10]: (11.5, 9.4457397432391215, 13.554260256760879)
In [11]: st.t.interval(0.95, len(a)-1, loc=np.mean(a), scale=st.sem(a))
Out[11]: (9.4457397432391215, 13.554260256760879)
In [12]: sms.DescrStatsW(a).tconfint_mean()
Out[12]: (9.4457397432391197, 13.55426025676088)
最后,使用st.norm.interval()
的错误结果:
In [13]: st.norm.interval(0.95, loc=np.mean(a), scale=st.sem(a))
Out[13]: (10.23484868811834, 12.76515131188166)
首先从z-value查找look-up table所需的置信区间。置信区间为mean +/- z*sigma
,其中sigma
是样本均值的估计标准差,由sigma = s / sqrt(n)
给出,其中s
是根据样本数据计算的标准差,n
是您的样本大小。
启动Python 3.8
,标准库提供NormalDist
对象作为statistics
模块的一部分:
from statistics import NormalDist
def confidence_interval(data, confidence=0.95):
dist = NormalDist.from_samples(data)
z = NormalDist().inv_cdf((1 + confidence) / 2.)
h = dist.stdev * z / ((len(data) - 1) ** .5)
return dist.mean - h, dist.mean + h
这个:
NormalDist
对象(NormalDist.from_samples(data)
,通过NormalDist.mean
和NormalDist.stdev
,我们可以访问样本的均值和标准差。Z-score
),基于标准正态分布(由NormalDist()
表示)计算给定置信度的inv_cdf
。这假设样本大小足够大(假设超过~100分),以便使用标准正态分布而不是学生t分布来计算z
值。