假设检验笔记

用小概率事件进行判断

我们有时候会听到“意外发生了”这样的说法,这句话意味着我们相信某个事件发生的概率很小,也就是说它预期不会发生,但是它发生了,例如,没有人会对一个大城市某一天发生交通事故感到意外,因为这要瓣城市每天都发生大量的交通事故,但如果某一天没有发生交通事故,就真是意外了,即小概率事件发生了,另外,人们会觉得一个从来没有出过事故的老司机出事故的概率很小,如果这个司机发生事故了,人们会由于小概率事件发生了而觉得意外。

在统计中,我们常用小概率事件对某项论述进行判断,假如我们对于某个说法表示怀疑,并且试图否定这个说法,那么,我们就要表示,这个说法成立的情况下,我们所观测的数据出现的概率很小。我们用下面的例子说明,人们如何计算用来否定某种说法的这种概率。比如,某大型百货商场说它的抽奖活动有10%的可能抽到奖,而有人注意到有70人抽奖,结果都未中奖,这样人们就会怀疑这个商场作假,在奖券很多的情况下,我们可以假定抽奖70次中成功的次数应该服从二项分布Bin(70,p),按照商场的说法,每次中奖概率p=0.10,因此我们可以诈出70次抽奖没有人中奖的概率是0.0006265787

1
2
> dbinom(0,70,0.1)
[1] 0.0006265787

也就是说,按照商场的差距中奖概率的说法,70次抽奖都没有抽中的概率只有约万分之六,由此70交抽奖没有人中奖就是发生了小概率事件,这里的“小概率”事件是根据商场提供的参数p=0.1计算出来的,因此我们有理由怀疑商场中关于p=0.1说法的合理性。这里我们所做的就是按照某个假定(这里的商场的说法)来计算随机试验发生某结果的概率,如果小概率事件发生,那么我们有理由质疑那个假定。

假设检验的原理也是如此。

假设检验的基本原理

在实际中我们会遇到这样的问题:某一样本均数是否来自于某已知均数的总体?两个不同样本均数是否来自均数不相等的总体等?要回答这类问题,经常使用统计推断的一个方法,即假设检验(hypothesis test)来解决。
假设检验过去称为显著性检验(significance test),它是利用小概率反证法的思想,从问题的对立面($H_{0}$)出发,间接判断要解决的问题($H_{0}$)是否成立。即在假设$H_{1}$成立的条件下计算检验统计是不是,然后根据获得的P值来判断。其原理和步骤用以下实例说明。

案例

例3-5 某医生测量了36名人事铅作用男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L,问:人事铅作用男性工人的血红蛋白含量均数($\mu$)是否不等于正常成年男性的无数140g/L($\mu_{0}$)?(医学统计学第四版,孙振球)

本题的目的是判断是否$\mu \neq \mu_{0}$,从所给的条件来看,样本均数$\bar{X}$与已知总体均数$\mu_{0}$不等,造成两者不等的原因有二:①从事铅作用工人的血红蛋白含量确实高于正常成年男性,即非同一总体($\mu \neq \mu_{0}$);②因抽样误差导致两者不等,即为同一总体($\mu = \mu_{0}$)。
要直接证明是否$\mu \neq \mu_{0}$很难,但可以利用反证法的思想,从$\mu \neq \mu_{0}$的对立面$\mu = \mu_{0}$出发,间接判断是否$\mu \neq \mu_{0}$。
假设:$\mu = \mu_{0}$,判断由于抽样误差造成不相等的可能性有多大?

如果$\bar{X}$与$\mu_{0}$接近,其差别可用抽样误差解释,可认为$\bar{X}$来自$\mu_{0}$总体;如果$\bar{X}$与$\mu_{0}$相关甚远,不宜用抽样误差解释,则怀疑$\bar{X}$不是来自$\mu_{0}$总体,那么$\bar{X}$与$\mu_{0}$相关多大算是由抽样误差造成的呢?若假设$\mu = \mu_{0}$成立,则可用公式$\frac{\bar{X}-\mu}{S/\sqrt{n}} =t$或$\frac{\bar{X}-\mu}{\delta/ \sqrt{n}} =\mu$计算t值或$\mu$值,然后由t值或$\mu$值求得P值来判断。如果$\bar{X}$与$\mu_{0}$相差较过错,t或$\mu$值就大,P值就小,当P小于或等于预先规定的概率值$\alpha$,如0.05时,则为小概率事件。小概率事件在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设$\mu = \mu_{0}$可能不成立,认为其对立面$\mu \neq \mu_{0}$成立,该结婚的正确性冒着5%的错误风险。

从上面分析可以看出,假设检验可归纳为三大基本步骤。

  1. 建立检验假设,确定检验水准,假设有两种:
    (1) $\mu = \mu _{0}$,常称为无效假设或零假设,用$H_{0}$表示。
    (2) $\mu \neq \mu _{0}$,常称为备选假设,用$H_{1}$表示。

对于假设检验,需要注意的是:

  1. 检验假设针对的是总体,而不是样本;
  2. $H_{0}$和$H_{1}$是相互关系、对立的假设,后面统计推断的结论是根据$H_{0}$和$H_{1}$作出的,两者缺一不可;
  3. $H_{0}$为无效假设,其假定通常是:某两个(或多个)总体参数相等,或某两个总体参数之差为0,或某资料服从某一特定分布;
  4. $H_{1}$的内容直接反映了检验的单双侧,若$H_{1}$为$\mu > \mu_{0}$或$H_{1}$为$\mu < \mu_{0}$,则此检验为单侧检验,它不仅考虑是否有差异,而且还考虑差异的方向,假如上述例3-5中医生只关心铅作业男性工人的血红蛋白含量均数是否低于正常男性的均数;若$H_{1}$为$\mu \neq \mu_{0}$,则此检验为双侧检验,例如上述例题中的问题,从事铅作业男性工人的血红蛋白含量均数是否不等于男性的均数140g/L,此时高于和低于正常男性这两种可能性都存在。单侧检验的确定,首先要根据专业知识,其次是根据所要解决的问题来确定。若从专业上看一种方法的结果不可能低于或高于另一种方法,尽量提问为:两种方法的测定结果是否相同?此时仍用单侧检验。一般认为,双侧检验比较保守和稳妥,探索性研究多用双侧检验;而证实性研究多用单侧检验。现在以单样本和两样本均数比较的t检验为例,用下面两张表说明单双侧检验的确定。

    (3)$\alpha$:即检验水准,也称显著性水准,它属于I型错误的范畴,$\alpha$是预先规定的概率值,它确定了小概率事件的标准,在实际工作中,常取$\alpha=0.05$。除了I型错误外,还有II型错误。后面会详细说明第1类错误和第2类错误。

第一类错误和第二类错误

第一类错误

第一类错误又称Ⅰ型错误、拒真错误,是指拒绝了实际上成立的、正确的假设,为“弃真”的错误,其概率通常用α表示。即“原假设是正确的,却拒绝了原假设”。我们平时遇到的文献里,基本上都是与第一类错误有关的假设检验,这就是我们常说的“假阳性”,即无中生有,本来实验结果是阳性,非常高兴,后来才发现这是假阳性,把本来不存在的事情,当作了存在。

第二类错误

第二类错误又称Ⅱ型错误,接受了实际上不成立的H0 ,也就是错误地判为无差别,这类取伪的错误称为第二类错误,其概率用β表示。即“原假设是错误的,却没有拒绝原假设”,这可以理解为“假阴性“,下面的一幅图可以很清楚地说明第一类错误与第二类错误:

第一类错误和第二类错误的关系

当样本例数固定时,α愈小,β愈大;反之,α愈大,β愈小。因而可通过选定α控制β大小。要同时减小α和β,唯有增加样本例数。统计上将1-β称为检验效能或把握度(power of a test),即两个总体确有差别存在,而以α为检验水准,假设检验能发现它们有差别的能力。实际工作中应权衡两类错误中哪一个重要以选择检验水准的大小。

对第一类错误和第二类错误的简单理解

我们常把假设检验比作法庭判案,我们想知道被告是好人还是坏人。原假设是“被告是好人”,备择假设是“被告是坏人”。法庭判案会犯两种错误:如果被告真是好人,而你判他有罪,这是第一类错误(错杀好人);如果被告真是坏人,而你判他无罪,这是第二类错误(放走坏人)。

记忆方法:我们可以把第一类错误记为“以真为假”,把第二类错误记为“以假为真”。当然我们也可以将第一类错误记为“错杀好人”,把第二类错误记为“放走坏人”。

在其他条件不变的情况下,如果要求犯第一类错误概率越小,那么犯第二类错误的概率就会越大。这个结论比较容易理解,当我们要求“错杀好人”的概率降低时,那么往往就会“放走坏人”。

同样的,在其他条件不变的情况下,如果要求犯第二类错误概率越小,那么犯第一类错误的概率就会越大。当我们要求“放走坏人”的概率降低时,那么往往就会“错杀好人”。同样的,在其他条件不变的情况下,如果要求犯第二类错误概率越小,那么犯第一类错误的概率就会越大。当我们要求“放走坏人”的概率降低时,那么往往就会“错杀好人”。

p值的理解

在假设检验中,拒绝零假设时所允许的最大的犯第一类错误的概率称为显著性水平(level of significance或significance level),通常用α表示。显著性水平通常是由进行检验的根据实际目标确定的。最常用的显著性水平为0.05,0.01,0.005,0.001等。

在假设检验中,我们通常使用样本的一个统计量作为证据来称量零假设的真伪,该统计量称为检验统计量(test statistic),和检验统计量关联的一个概念是p值(p-value),它是在零假设下,出现检验统计量的实现值以及(向备选假设方向)更极端的值的概率,有关p值的更好理解,可以参见这一篇文章《p值详解》

p值度量从样本数据得到的信息对零假设的支持程度。因此,p值越小,越有理由说明样本数据不支持零假设。如果p值小于显著性水平α,那么能够拒绝零假设,否则就不能拒绝零假设。因此p值常常被称为该检验的观测显著性水平(observed level of significance)。在统计软件的输出中,通常只输出p值,而由用户自己决定p值是多少时拒绝零假设。p值是由数据决定的,而显著性水平是由用户决定的。计算软件仅仅给出p值,而不给出α,例如我们计算得到的p值是0.0005,这时如果以α=0.05为显著性水平,那么此时就拒绝零假设,如果以α=0.001为显著性水平,那么就无法拒绝零假设。α=0.05表明,拒绝零假设时犯错误的概率是百分之五,α=0.001表明,拒绝零假设时犯错误的概率是千分之一。在统计软件的输出结果中,有的使用“p-value”,有的使用significance的缩写,即“Sig”来标明。

根据数据产生的p值来减少α的值以展示结果的精确性总是没有害处的。这就好比一个身高180cm的男生,可能愿意被认为高于或等于180cm,而不愿意被说成高于或等于155cm,虽然第二种说法在数学上没有丝毫错误。

在实际情况中,如何把握α与β错误

举个例子,某研究者研究一个化合物A,原假设(H0):化合物A对于改善糖尿病没有作用。而化合物A可能对改善糖尿病有作用,也可能没有作用。

如果化合物A真的没有作用,而研究的数据支持A有作用,则是犯了第一类错误(即无中生有)。

如果化合物A真的有作用,而数据支持A没有作用,则是犯了第二类错误(即有中生无)。
对于研究者来说,如何把握呢?如果把第一类错误标准定得过于宽松,很容易得到化合物A有作用的结论,把没有效果的东西当作是有效果的,他会把自己的研究结果报告,或者发布到学术界中。其他研究者便会去尝试重复实验,投入大量的人力和物力,去搞一个原本就不存在东西上,这就是极大的浪费,就像某医药公司看到了化合物A能够降改善糖尿病的论文,就投入大量资源去研究(事实上化合物A根本没有作用),这样就会造成浪费。因此宁可把第一类错误的标准定得高一些,这样即使犯了第二类错误,也不至于在本不存在的事情上浪费资源。

假设检验中的一些注意事项

某些书中会提到,不能拒绝零假设就接受零假设的说法,而且没有给出犯第二类错误的概率,这是不恰当的。首选,你说“接受零假设”,那么就应该负责任地提供接受零假设时可能犯第二类错误的概率,这就要算出在备选假设正确的情况下,错误地接近零假设的概率。但是,这只有在备选假设仅仅是一个与零假设不同的确定值(而不是范围)时才有可能,多数初等统计教科书中的备选假设是一个范围,例如前面提到例题,在这个例题中,H0:μ=50,H1:μ<50,在这种情况下,根本无法确定犯第二类错误的概率。

在实际分析中,通常会把I型错误的阈值设为0.05,把II型错误的阈值设为0.1或0.2。

在很多应用回归分析的方法中,也有不少书中往往把一系列不能拒绝零假设的检验当成接受这些假设的通行证。比如不能拒绝某样本的正态性就变成了证明该样本是正态的等。其实,不能拒绝这些零假设,仅仅说明,根据当前所使用的检验方法和当前的数据,没有足够证据拒绝这些假设而已。因此,在不能拒绝零假设时,只能够说,按照目前的证据和检验方法,不足以拒绝零假设。

参考资料:

第一类错误和第二类错误的关系是什么?马志阳的回答
假设检验之五:α风险 vs. β风险

白话统计.冯国双