置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。
什么是统计学中的置信区间?
统计学有点像数学和概率学的混合体。统计学的意义在于描述你可以在世界范围内观察到的过程--橡树的高度或疫苗抵御疾病的可能性--而不必测量世界上每一棵橡树或给每个人接种疫苗,然后再决定一种药物的有效性。
因为概率描述的是涉及到偶然性的事物,所以我们必须接受,无论我们用统计学来衡量什么过程,我们都不会得到全貌。
为什么要使用统计学?
假设你把一枚硬币掷了四次。你得到三个头和一个尾。如果不使用统计学,我们可能会得出结论,得到人头的概率是75%,而抛硬币得到人头的真实概率是1:1,或者说是50-50的概率。如果我们改做40次抛硬币,肯定会更接近1:1的人头和人尾的比例,而统计学的使用也会反映这一点。
"统计学的大部分内容都与从样本--实际观测值--到人群的特征--所有可能的观测值--的推理有关,"佐治亚大学传染病生态学中心的研究教授约翰-德雷克在一封电子邮件中说。"例如,我们可能对橡树的高度感兴趣。我们不能测量世界上所有的橡树,但我们可以测量一些。我们可以计算出样本中橡树的平均高度,但这不一定会与所有橡树的平均高度相同。"
置信区间
由于我们无法测量世界上所有的橡树,统计学家根据概率和他们所掌握的所有数据得出一个估计的高度范围。这个范围被称为置信区间,它由两个数字组成:一个可能小于真实值,一个可能大于真实值。真实值可能介于两者之间。
"'95%的置信区间'意味着在100次置信区间中,有95次是这样构建的,区间将包括真实值,"德雷克说。"如果我们测量了100次橡树样本,基于其中95次实验中收集的数据的置信区间将包括群体平均值,或所有橡树的平均高度。因此,置信区间是对估计精度的衡量。当你收集更多的数据时,估计值会变得越来越精确。这就是为什么可信区间会随着数据的增多而变小。"
所以,置信区间有助于显示估计的好坏。当我们抛硬币只抛四次时,我们对75%的估计就有很宽的置信区间,因为我们的样本量非常小。如果我们抛掷40次硬币,我们的估计值的置信区间就会窄得多。
置信区间的实际意义与重复实验有关。在四次抛硬币的情况下,95%的置信区间意味着,如果我们重复100次抛硬币实验,在其中的95次中,我们得到人头的概率将落在这个置信区间内。
统计学的极限
统计学是有局限性的。你必须设计一项好的研究--统计不能告诉你任何你没有问过的问题。
假设你正在研究一种疫苗的疗效,但你没有将儿童纳入研究范围。你可以根据你收集的数据得出一个置信区间,但它不会告诉你任何关于疫苗对儿童的保护程度。