点估计
用于估计总体参数的统计量叫做估计量(estimator)。统计量是随机变量,估计量也是,对于不同的样本,估计量的聚会也不同,对于任意取定的一个样本,把样本数据代谢估计量的公式,就得到了估计量的一个值,称为估计值(estimate)或者估计量的一个实现(realization)。
衡量估计量的一个标准是相合性(consistency),这个标准表明,样本量越大,相合估计量(consistent estimator)对总体参数的估计就越精确。另一个标准就是无偏性(unbiasedness)。这意味着,虽然从一个样本得到的估计量的实现并不一定等于总体参数的值,但无穷个估计量的平均观测值(期望值)等于相应的总体参数。满足这样条件的估计量称为无偏估计量(unbiased estimator)。第三个标准就是所有相合、无偏估计量中取方差最小的估计量,也称为最有效或者最好的估计量。
下面看一个简单的例子来介绍一下无偏性和最小方差性。假定$X_{1},X_{2},X_{3},X_{4}$均服从某均值为$\mu$的分布的独立观测值。如果我们需要从下面四个关于$\mu$的估计量中选择一个,那么根据随机变量线性组合的总体均值和方差的性质,这四个估计量的均值都是$\mu$,因此这个统计量都是$\mu$的无偏估计量,如下所示:
它们的方差分别为:
因此,在这四个估计量中,第1个样本均值,即$\bar{X}=\frac{1}{4} \sum\limits_{i=1}^4X_{i}$的方差最小,这个样本的估计量要优于其他三个。
最常用的估计量就是样本均值($\bar{x}$)、样本标准差(s)和(Bernoulli试验的)成功比例(x/n),常用这几个统计量来分别估计总体均值($\mu$)、总体标准差($\delta$)和成功概率(或总体中具有某种特征元素的比值)p。
区间估计
在讲区间估计之前,先看一个简单的例子。
当一个人谈论他高三时班上男生的平均身高时,他不太可能会说班长男生的平均身高是“171.25厘米”,而更可能会说“在170厘米左右”或者说“在1.65米到1.75米之间”。后者就是区间估计。
区间估计给出了估计者认为比较可能的一个范围,例如在民间调查中,如果调查是关于对某个看法的支持率时,也可能会说“对于该看法的支持率为45%加减3%的误差,其置信度为95%”,这种描述,既给出了点估计45%,这是样本中的支持率,也给出了一个区间,即45%±3%,或置信区间(confidence interval)(42%,48%).而这里的置信度(confidence level)则是对产生这样一个区间估计的一种信心,并不涉及从样本数据得到的某一个特定的区间。
一般来说,我们不知道总体参数(例如总体的均值或比例)是多少,需要通过样本来估计这个总体参数,其中点估计和区间估计都是从样本中得到的,而点估计中的估计量和区间估计的两个端都是统计量,因而也是随机变量。
“某总体参数ξ的置信度为100(1-α)%的置信区间”这句话表明:如果我们抽取(相同样本量)的大量样本,那么,从这些样本中得到的以同样方法(或公式)计算的大量区间中会有大约1-α比例的区间包含未知的总体参数ξ,而有约α比例的区间不包含该总体参数。例如从具体的一个样本中计算出来的一个数值区间,比如前面的(42%,48%),这个区间可能包含真实的比例,也有可能不包含真实的比例。由于真实的比例和这个区间(42%,48%)都是确定的数,不包括随机性,也没有概率可言。因此如果用这样的话来描述“95%置信区间(42%,48%)以概率0.95包括真实比例”,这样的话是错误的。如果用概率语言来描述,应该说构造95%置信区间两个端的统计量以0.95的概率包含真实的参数(我觉得可以这么理解,我们在(42%,48%)这个区间内取机抽取一些样本,这些样本有0.95的概率包含真实值)。
通常来说,我们希望区间越窄越好,而另一方面,我们又希望置信度越大越好,对于一定的样本量,如果要增加置信度,通常要加宽区间,而如果要使区间变窄,就要牺牲置信度。但是,如果可以变化样本量,那么在固定了区间的宽度时,置信度会随着样本量的增加而增加,而在固定置信度时,区间宽度会随着样本量的增加而变窄。这主要是因为样本量大,对总体的信息也大,区间估计就会更理想。
正态分布总体均值$\mu$的区间估计
假定X1,X2,..Xn是一个来自于正态分布的样本,我们可以根据这个样本求出关于这个正态总体均值的置信区间,我们知道,总体均值的一个点估计量为样本均值$\bar{X}$,我们这里所要建立的对均值的区间估计就是以$\bar{X}$为中心的一个区间,而区间的上下界是根据样本、事先选择的置信度以及正态分布的性质来确定的两个统计量。这样的置信度为1-α的随机区间由下式表示:
这里s为样本标准差,n为样本量,$t_{\alpha/2}$为自由度为n-1的t分布的上侧$\alpha/2$分位数,这里的上侧$\alpha/2$分位数是指对于t(n-1)随机变量T,$P(T>t_{\alpha/2})=\alpha/2$。
这个区间的上下界是统计量,因此该区间是随机区间,置信度是是该随机区间覆盖真实均值的概率,如果根据一个样本的数据算出上下界的真实值,就不是随机区间了,而是一个固定的数值区间,这个区间的宽度为$t\alpha/2s\ \sqrt{n}$。因此,可以看出,当其他因素固定时,区间宽度和样本量的平方根成反比,此外,由于当置信度1-α增加时,$t_{\alpha/2}$也增加,因此当其他因素固定时,置信度增加会导致区间变宽,如果其他因素不变时,样本标准差s的减少也会导致置信区间变窄。
现在看一个案例。下面是某厂家标有“净重50克”的30包味精的实际重量,如下所示:
51.5,48.0,47.0,46.3,46.7,47.8,51.6,49.4,48.2,52.3,48.5,45.7,52.1,51.0,48.7,46.6,50.1,48.5,50.9,46.8,51.6,49.2,46.9,52.5,46.2,45.8,51.0,48.1,49.9,49.3
如果我们想要对这个厂家的这各味精重量的总体均值做出区间值估计,置信度取95%。
假定该总体服从正态分布,根据数据,计算出置信区间如下所示:
|
|
从上面结果可以看出来,这批数据的95%置信区间为(48.14524,49.73476)。
或者直接通过公式进行计算,如下所示:
|
|
为了说明不同置信度和不同的样本量对置信区间的影响,下图显示了n=50和n=20,以及置信度为0.95和0.60的四种排列组合情况的各自基于80个正态样本的置信区间,如下所示:
在下图中,置信区间为两边有短的竖直线段,线段中间的点为样本均值,图中水平虚线为真实的总体均值,从图中可以看到,对于固定的样本量,置信度越大,包含总体均值的区间就越多(上下图比较)。
而对于相同的置信度,样本量n越大,区间狭窄(左右图比较)。在每个图内部的各个置信区间的长短也不一样,这是因为样本标准差因样本而异,这也影响置信区间的长度,从图中可以看出,每个根据样本得到的置信区间,有的覆盖真实的总体均值,有的不覆盖真实的总体均值,但众多的置信区间中覆盖总体均值的区间数量的比例则反映了置信度的大小,这些区间都是随机区间的实现,而置信度只是随机区间覆盖总体均值的概率。
两个独立正态分布总体均值差$\mu_{1}-\mu_{2}$的区间估计
假定样本量为m和n的独立样本$X_{1},\cdots,X_{m}$和$Y_{1},\cdots,Y_{n}$分别来自均值为$\mu_{1}$和$\mu_{2}$的两个独立正态总体,现在求出这两个正态总体均值之差$\mu_{1}-\mu_{2}$的置信区间。总体均值差的一个点估计量为样本均值$\bar{X}-\bar{Y}$,此时要求的均值差的区间估计就是以$\bar{X}-\bar{Y}$为中心的一个区间,而区间的上下界为根据样本、选择的置信度以及正态分布的性质来确定的两个统计量。这个计算过程由统计软件完成,但在计算的时候,要注意两点,第一,当两个总体的方差一样时,统计软件会用一种方法来计算置信区间;第二,当两个总体的方差不同时,需要用另外一种方法来计算置信区间。
现在看一案例。
下面的这组数据描述了两个生产线生产每一个零件的耗时(单位:s)记录。其中第一个生产线记录了27个时间,第二个记录了25个时间,现在我们计算一下第一个和第二个生产线生产一个零件所花的时间均值差别为95%的置信区间。我们假定两个记录均来自独立正态分布的总体,下面是这两个记录,如下所示:
生产线1:
|
|
生产线2:
|
|
在比较这两组数据之前,需要比较两个正态总体相等或不相等时,关于均值差的置信区间计算有所不同,现在我们用x和y分别表示两个样本。
检验方差是不相等时,使用var.test(x,y)$p.value
,此时会得到一个数值,如下所示:
|
|
在这个案例中,此时的p值为0.01656675,这就说明,如果说方差不相等,那么出错的概率约为0.0166,它是小于0.05的(通常以这个显著性水平来判断),因此可认为方差不等。
此时我们使用t.test(x,y,con=0.95)$con
就可以得到方差不等时的95%置信区间,因为在R中,t.test()
这个函数默认的参数中,var=F
,如果方差相等,那么就使用t.test(x,y,con=0.95,var=T)$con
来计算置信区间,如下所示:
|
|
注:求两个样本差值的置信区间公式如下所示:
配对正态分布总体均值差$\mu_{D}=\mu_{1}-\mu_{2}$的区间估计
看完了独立正态总体的均值差的区间估计。再看一下两个总体是配对的情况(paired),这种情况下,它们的样本称为配对样本,常见的情况有减肥前后的重量比较,治疗前后的症状比较,同样情况下对两种材料某种性能的比较,看下面一个案例。
一个有13人畚听减肥计算实话前后所称体重列在下表中,这里的X和Y分别是减肥前后的重量,而D为其差值,如下所示:
X | 88.9 | 107.3 | 106.2 | 121.8 | 103.7 | 133.8 | 65.5 | 77.7 | 50.8 | 81.5 | 95.6 | 74.4 | 96.7 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Y | 58.5 | 119.6 | 80.8 | 97.5 | 106.3 | 106.5 | 43 | 66.4 | 55 | 61.1 | 95.2 | 59.1 | 103.8 |
D | 30.4 | -12.3 | 25.4 | 24.3 | -2.6 | 27.3 | 22.5 | 11.3 | -4.2 | 20.4 | 0.4 | 15.3 | -7.1 |
现在我们计算一下减肥前后体重差值的均值$\mu_{D}(=\mu_{1}-\mu_{2})$的估计,这里假定重量区间为正态分布。
在这个案例中,减肥前后的体重并不是独立的,不是独立的是指,减肥前的体重与减肥后的体重只是与同一个人比较才有意义,因此这个问题不能用前面对待两个独立样本的方法来求估计值。不过,可以把每个人减肥前后的重量相减,用得到的差值来进行估计,我们用(X,Y)代表配对样本,样本量为n,均值分别为$\mu_{1}$和$\mu_{2}$,并令D=X-Y为这两个样本相应元素之间的差,即对于$i=1,\cdots,n,D_{i}=X_{i}-Y_{i}$,假定D服从均值为$\mu_{D}(=\mu_{1}-\mu_{2})$的正态分布,在这种情况下,问题就转化成了求单样本均值估计的问题了,现在过计算一下$\mu_{D}$的95%置信区间就是(2.627,20.619),如下所示:
|
|
总体比例(Bernoulli试验成功概率)p的区间估计
在抽样调查中,计算某特征的总体比例是最基本的目的之一,任何一个调查报告,都应给出样本比例,以及所描述的总体比例的具有某置信度的置信区间,下面就是一个案例。
某地对1050人的随机调查结果显示,有1048人支持减少公车数量,另外,有人调查了政府机关中盺30人,有2人支持减少官员公车数量,我们希望分别找根据这两个调查数据找出总体中支持减少公车的人的比例的点估计以及其置信度为95%的置信区间,并且比较这两个调查。
我们知道,严格说来,抽样调查应该是不施加抽样,而样本中具有某种特征的元素数目应该属于超几何分布,但在大总体时,可以看成为放回抽样,因此可以看成近似于二项分布。如果总体量大,且样本量充分大时,那么根据中心极限定量,可以用视为近似正态分布。
假定样本量为n,样本中具有某种特征的元素数目(Bernoulli试验成功次数)为x,而样本比例为$\hat{p}=x/n$,在这种符号,用正态近似计算总体比例的置信度为$(1-\alpha)$的置信区间的公式如下所示:
这里的$z_{\alpha/2}$是标准正态分布的上$\alpha/2$分位点。但是,一般来说,很难确定需要多大样本才能使用用正态分布。如果使用这个公式计算出来的区间包含了0或者1,则说明样本不够大,这是因为总体比例不可能小于0,也不可能大于1,是否为大样本,不仅依赖于n,而且依赖于$\hat{p}$的大小,当$\hat{p}$越接近于0或1时,为了正态近似所需要样本量就越大。
现在看前面的这个案例的计算结果。
第一个调查,n=1050,x=1048,那么$\hat{p}=x/n=0.9980952$
p的精确95%置信区间计算如下所示:
|
|
也就是( 0.9931364,0.9997692),置信区间宽度为0.0066328。
也可以使用Hmisc
包中的binconf
函数来计算,binconf函数的用法为binconf(x,n,alpha=c,method=”all”),它计算的是三种置信区间:
(1)精确置信区间;
(2)一种Wilson近似区间;
(3)正态近似区间,其中置信度为1-c(我们计算的是95%置信区间,因此这里的c就是0.05)。
如下所示:
|
|
第三行就是近拟正态分布的95%置信区间。
再看第二个调查,n=30,x=2,那么$\hat{p}=x/n=0.0666667$
p的精确95%置信区间计算如下所示:
|
|
也就是( 0.008178134,,0.220735402),置信区间宽度为0.2125573。
也可以使用Hmisc
包中的binconf
函数来计算,如下所示:
|
|
从上面的两个计算结果可以看出,第一个正态近似所得到的区间包含了1,因此应该采用精确方法计算的区间,精确的区间宽度只有约0.0066328,非常精确,按照抽样调查通常的说法是“误差约为±0.332%”,因此可以说“该地公众中约有99.8%的人支持减少官员公车的数量,误差为0.332%”。对于第二个调查来说,正态近似公式区间和精确区间有些出入,第二个调查得到的精确区间宽度约为0.2125573,是第一个区间的32.05倍,很不精确,可以说“该地政府机关工作者中有约6.7%的人支持减少公车的数量,误差为±10.628%。
第一个调查代表了群众的观点,第二个调查只代表了政府机关工作人员的观点,从这个例子可以看出,只给出比例是不行的,必须给出样本量或者具有某置信度的置信区间,还应该告知抽样的对象和范围。很多调查报告只给出比例是不合适的 ,假定关于某药品疗效的调查的样本量是2,有效率是1/2,那么有效率的95%置信区间为(0.01257912,0.9874209),区间宽度为0.9748418,几乎和所有可能取值范围(0,1)相同,这样结果没有任何意义,但如果不给出分母或给出具有某置信度的置信区间,而只说50%有效,必然会误导大众。
如何概算调查所需的样本量
在美国总统选举的各种民意测序人中,关于支持率的一个常用标准是置信度为95%,而误差在3%以内(置信区间宽度为6%)。那么要达到这样的标准需要调查多少人,就需要概算一下样本量了,我们可以根据前面关于总体比例置信区间的正态近似公式,由$\hat{p}$、$z_{\alpha/2}$来推算样本量,通过查表或者统计软件,容易得出$z_{0.025}\approx1.96$,如果取$\hat{p}=0.5$,那么由下面的公式可以计算:
求得n=1067.11,取大于它的最小整数,得n=1068,这就是说,至少要问1068个人,人们可能会问,为什么取$\hat{p}=0.5$呢,这是因为人们在抽样前并不知道$\hat{p}$是多少,而在$\hat{p}=0.5$时,需要的n最大,因此保险的作用是在计算样本量时取$\hat{p}=0.5$,比方说,假如取了$\hat{p}=0.1$,会得到n=385,这时,如果真实的$\hat{p}=0.5$,那么误差就约等于0.0499,大于要求的0.03了。
总体比例之差$p_{1}-p_{2}$的区间估计
现在通过以下案例来说明两个比例之差的区间估计
两个商场某天对某品牌的洗衣粉的销售表明,在商场A的1217名顾客中,购买这种洗衣粉的有53名,而在商场B的1750个顾客中,购买这种洗衣粉的有20人,假定两个商场的交易分别代表两个总体,求这两个总体中购买该品牌洗衣粉的比例之间的区间估计。
这里有两个总体比例,分别是商场A和B所有交易中购买该品牌洗衣粉的比例,现在的数据表明$n_{1}=1217,x_{1}=53,n_{2}=1750,x_{2}=20$,假定两个总体比例分别是$p_{1}$和$p_{2}$,我们希望求这两个总体比例之差$p_{1}-p_{2}$的95%点估计和区间估计,令$\hat{p_{1}}=x_{1}/n_{1}$,$\hat{p_{2}}=x_{2}/n_{2}$。
点估计很好计算,$\hat{p_{1}}-\hat{p_{2}}$即可,区间估计一般都使用正态分布近似或者$\chi^2$分布近似区间。常用的正态近似公式有几种,常用的是下面的这一种:
而且都可以为了适应连续分布而做连续性修正,在这个案例中,这两个总体比例之差$p_{1}-p_{2}$的95%置信区间为(0.01892344,0.04531884),计算过程如下所示:
|
|