概率论第8章:假设检验
1 假设检验
1.1 基本原理
背景:在总体的分布函数完全未知或只知其形式、但不知其参数的情况下, 为了推断总体的某些性质,提出某些关于总体的假设。
例如, 提出总体服从泊松分布的假设;又如,对正态总体提出数学期望等于$\mu$的假设等.
假设检验就是根据得到的样本对所提出的假设作出判断: 是接受, 还是拒绝.
例1:某车间用一台包装机包装葡萄糖, 包得的袋装糖重是一个随机变量, 它服从正态分布.当机器正常时, 其均值为0.5千克, 标准差为0.015千克.某日开工后为检验包装机是否正常, 随机地抽取它所包装的糖9袋, 称得净重为(千克):0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512, 问机器这一天是否正常?
分析:用$\mu$和$\sigma$分别表示这一天袋装糖总体X的均值和标准差,由长期实践可知,标准差较稳定,设$\sigma=0.015$,则$X \sim N\left(\mu, 0.015^{2}\right)$,其中$\mu$未知。
目标:根据样本值判断$\mu=0.5$还是$\mu \neq 0.5$。
(1)提出两个对立假设
- $H_{0}: \mu=\mu_{0}=0.5$
- $H_{1}: \mu \neq \mu_{0}$
说明:利用已知样本做出判断是接受假设$H_0$,还是拒绝假设$H_1$。
如果做出的判断是接受$H_0$,则$\mu=\mu_0$,即认为机器工作是正常的,否则认真是不正常的。
(2)找到$\mu$的估计量$\bar{X}$
$\bar X$是$\mu$的无偏估计量,若$H_0$为真,则$|\bar x-\mu_0|$不应太大。
(3)构造检验统计量(分布已知)
$$
Z=\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}} \quad 当 H_{0} 为真时, U \sim N(0,1).
$$
(4)选定常数k判断假设是否正确
当观察值$\bar x$满足$\frac{\left|\bar{x}-\mu_{0}\right|}{\sigma / \sqrt{n}} \geq {k}$时(感觉这个地方有点像置信区间),拒绝假设$H_0$,分支接受假设$H_0$。
1.1.1 如何确定常数k
因为当$H_0$为真时,满足$Z=\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}} \sim N(0,1)$,取标准正态分布分位点$k=z_{\alpha/2}$,当$\frac{\left|\bar{x}-\mu_{0}\right|}{\sigma / \sqrt{n}} \geq z_{\alpha / 2}$时,拒绝假设$H_0$,反之接受$H_0$。
1.2 假设检验的过程
在例1中选定$\alpha=0.05$,则$k=z_{\alpha/2}=z_{0.025}=1.96$,又已知n=9,$\sigma=0.015$,由样本计算得到$\bar x=0.511$,既有
$$
\frac{|\bar{x}-\mu_{0}|}{\sigma / \sqrt{n}}=2.2>1.96
$$
于是拒绝假设$H_0$,认为包装机不正常。
以上所采取的检验法的合理性分析:
通常$\sigma$总是取得很小,如$\sigma=0.01$,$\sigma=0.05$,则:
$$
P{|\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}}| \geq z_{\alpha / 2}}=\alpha
$$
即$\left|\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}}\right| \geq z_{\alpha / 2}$是一个小概率事件。如果在一次实验中,上述不等式成立,则有理由怀疑原来的假设$H_0$的正确性,因而拒绝假设$H_0$。
1.3 假设检验的相关概念
1.3.1 显著性水平
若$|z|=\left|\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}}\right| \geq k$,则称$\bar x$与$\mu_0$的差异是显著的,则拒绝假设$H_0$,反之接受$H_0$。
其中$k$由$α$决定,$α$称为显著性水平。
1.3.2 检验统计量
统计量$Z=\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}}$称为检验统计量。
1.3.3 原假设与备择假设
假设检验问题通常叙述为:在显著性水平α下:
- 检验假设$H_{0}: \mu=\mu_{0}$
- $H_{1}: \mu \neq \mu_{0}$
其中$H_0$称为原假设或零假设,$H_1$称为备择假设。
1.3.4 拒绝域与临界点
当检验统计量取某个区域$C$中的值时, 我们拒绝原假设$H_0$,则称区域$C$为拒绝域,拒绝域的边界点称为临界点。
如在例1中:
- 拒绝域为$|z| \geq z_{\alpha / 2}$
- 临界点为$z=-z_{\alpha / 2}$和$z=z_{\alpha / 2}$
1.3.5 两类错误及记号
第I类错误的概率记为:$P_{ 当 H_{0} 为真拒绝H_{0}} $或$ P_{\mu \in H_{0}}\{拒绝H_{0}\}$
第II类错误的概率记为:$P_{ 当 H_{0} 不真接受H_{0}} $或$ P_{\mu \in H_{1}}\{接受H_{0}\}$
1.3.6 显著性检验
只对犯第一类错误的概率加以控制,而不考虑犯第二类错误的概率的检验,称为显著性检验.
1.3.7 双边备择假设与双边假设检验
1.3.8 右边检验与左边检验
- 右边检验:形如$H_{0}: \mu \leq \mu_{0}$,$H_{1}: \mu>\mu_{0}$的假设检验
- 左边检验:形如$H_{0}: \mu \geq \mu_{0}$,$H_{1}: \mu < \mu_{0}$的假设检验
右边检验与左边检验统称为单边检验。
1.3.9 单边检验的拒绝域
右边检验的拒绝域为:
$$z=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}\geq z_\alpha $$
左边检验的拒绝域为:
$$z=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}} \leq - z_\alpha $$
1.4 假设检验的一般步骤
- 根据实际问题的要求,提出原假设$H_0$及备择假设$H_1$
- 选择待检参数的估计量,确定检验统计量以及拒绝域的形式
- 求出拒绝域
- 根据样本观察值确定接受还是拒绝原假设
2 正态总体均值的假设检验(单个总体)
2.1 $\sigma^2$已知,关于$\mu$的检验(Z检验)
- 假设检验$H_{0}: \mu=\mu_{0}$,$H_{1}: \mu \neq \mu_{0}$
- 假设检验$H_{0}: \mu \leq \mu_{0}$,$H_{1}: \mu > \mu_{0}$
- 假设检验$H_{0}: \mu \geq \mu_{0}$,$H_{1}: \mu < \mu_{0}$
利用$H_0$为真时服从$N(0, 1)$分布的统计量:
$$
Z=\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}} \sim N(0,1)
$$
来确定拒绝域,这种检验法称为Z 检验法。
例1:某切割机在正常工作时, 切割每段金属棒的平均长度为10.5cm, 标准差是0.15cm, 今从一批产品中随机的抽取15段进行测量, 其结果如下:
假定切割的长度服从正态分布,且标准差没有变化,试问该机工作是否正常?(α=0.05)
2.2 $\sigma^2$未知,关于$\mu$的检验(t检验)
当$H_0$为真时,$\frac{\bar{X}-\mu_{0}}{S / \sqrt{n}} \sim t(n-1)$,采用$t=\frac{\bar{X}-\mu_{0}}{S / \sqrt{n}}$来作为检验统计量的称为t检验。
取$k=t_{\alpha / 2}(n-1)$,则
$$
\boldsymbol{P}{|\frac{\bar{X}-\mu_{0}}{\boldsymbol{S} / \sqrt{n}}| \geq \boldsymbol{t}_{a / 2}(\boldsymbol{n}-1)}=\alpha
$$
拒绝域为
$$
|t|=\left|\frac{\bar{x}-\mu_{0}}{s / \sqrt{n}}\right| \geq t_{\alpha / 2}(n-1)
$$
3 正态总体方差的假设检验(单个总体)
设总体$X \sim N\left(\mu, \sigma^{2}\right)$,$\mu$和$\sigma^2$均未知,$X_{1}, X_{2}, \cdots, X_{n}$是来自X的样本,给定显著性水平α,要求检验假设
$$
H_{0}: \sigma^{2}=\sigma_{0}^{2}, \quad H_{1}: \sigma^{2} \neq \sigma_{0}^{2}
$$
其中,$\sigma_{0}^{2}$为已知常数。
4 本章总结
- 假设检验的基本原理、相关概念(9个)和一般步骤(5 步)。
- 熟练进行单个正态总体的均值检验(包括方差已知(Z检验)和未知(t检验)两种情况。)
- 熟练进行单个正态总体的方差检验。