在日常的科研数据处理中,我们经常会接触到方差(variance/deviation Var)、标准差(Standard Deviation)、标准误(Standard Error)和抽样方差(Sampling Variance)等概念。在遇到它们时,我总是会疑惑为什么样本方差是除以n-1而非n、n-2、n-3等?大多数老师在讲到这里时,总是会以“随机变量的数学期望位置,用样本均值代替,自由度减1”粗略的解释。这种一笔带过对于我这种爱钻牛角尖的人来说,这是极其痛苦的。并且,标准误又为什么是标准差除以$\sqrt{n}$呢?这些都困扰了一段时间,通过在网上查找各种资料推导后,将得到的理解记录在此,以备后面再用到时复习。
概念
标准差
标准差,又叫标准偏差,是总体各单位标准值与其平均数离差平方的算术平均数(方差)的算数平方根,用σ表示。标准差和方差一样能反映一个数据集的离散程度。主要分为总体标准差(方差)和样本标准差(方差)。顾名思义,总体标准差(方差)是总体各单位标准值与其算术平均数(方差)之间的平均离差;样本标准差(方差)是观测或调查的总体中所抽样的一部分个体(即样本数据)的标准值与其算数平均数(方差)之间的平均离差。在统计学中样本的均差多是除以自由度(n-1),表示样本能自由选择的程度(试想当选到最后一个时,它就不可能再有自由,因此自由度是n-1)。当然,这样理解起来比较抽象,更为容易的理解将在下文描述。其计算公式如下:
$$
\text{总体标准差:}\sigma = \sqrt{\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}}
$$
$$
\text{样本标准差:}S = \sqrt{\frac{\textstyle\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}}
$$
标准误差
标准误差表示的是样本均数与总体均数的相对误差。一个总体可以有大量的抽样样本,而每个独立抽样的样本数据都是对总体数据的估计,每个样本均值可视为总体均值的估计。标准误差代表的就是当前的多个样本对总体数据估计的离散程度。其计算公式如下:
$$
\text{标准误差:}\sigma_n = \frac{\sigma}{\sqrt{n}}
$$
样本方差的性质
由于方差与标准差之间只差一个开平方的关系,将在下文的很多地方直接以方差的角度去描述,不影响最终理解。
– 性质
- 设$c$为常数,则 $\textit{Var}(c) = 0$
- 设$x$为随机变量,则 $\textit{Var}(cx) = c^2\textit{Var}(x)$
- 设$x$, $y$为两个随机变量,则
$$
\textit{Var}(x + y) = \textit{Var}(x) + \textit{Var}(y) + 2 \cdot \textit{tail}
$$
其中, $\textit{tail} = E([x – E(x)][y – E(y)])$, 当$x$, $y$相互独立时,有 $\textit{Var}(x+y) = \textit{Var}(x) + \textit{Var}(y)$。
推广性质3:若随机变量$x_1, x_2, …, x_n$的方差都存在,则$x_1 + x_2 + … + x_n$方差存在,为
$$
\textit{Var}(\textstyle\sum_{i=1}^nx_i) = \textstyle\sum_{i=1}^n\textstyle\sum_{j=1}^n[E(x_ix_j) – E(x_i)E(x_j)]
$$
即
$$
\textit{Var}(\textstyle\sum_{i=1}^nx_i) = \textstyle\sum_{i=1}^n\textit{Var}(x_i) + \textstyle\sum_{i=1}^n\textstyle\sum_{j≠i}^n[E(x_ix_j) – E(x_i)E(x_j)]
$$
- 证明(仅做参考了解,可直接跳转至下一小节 )
性质1.
$$
\textit{Var}(c) = E([c-E(c)]^2) = 0
$$
性质2.
$$
\begin{aligned}
Var(cx)
&= E\{[cx – E(cx)]^2\} \\
&= E\{[c(x – E(x))]^2\} \\
&= E\{c^2[x – E(x)]^2\} \\
&= c^2E\{[x – E(x)]^2\} \\
&= c^2Var(x)
\end{aligned}
$$
性质3.
$$
\begin{aligned}
\textit{Var}(x+y)
&= E\{[(x + y) – E(x + y)]^2\} \\
&= E\{[(x + y) – (E(x) + E(y))]^2\} \\
&= E\{[(x – E(x)) + (y – E(y))]^2\} \\
&= E\{[x – E(x)]^2\} + E\{[y – E(y)]^2\} + 2E\{[x – E(x)] [y – E(y)]\} \\
&= \textit{Var}(x) + \textit{Var}(y) + 2E\{[x – E(x)][y – E(y)]\}
\end{aligned}
$$
当$x$, $y$相互独立时,$[x – E(x)]$与$[y – E(y)]$相互独立,则尾项为0,则$\textit{Var}(x+y) = \textit{Var}(x) + \textit{Var}(y)$。
样本方差为何除以n-1而非n
要想理解样本方差为何除以n-1而非n,首先要理解什么是无偏估计。无偏估计指的是多次重复抽样,其平均值接近所估计的参数真值。例如:要想知道烟花厂的一批货的燃放质量,全都燃放并不现实。于是,我们可以多次抽样调查。具体操作是:先随机挑选出n个烟花,燃放并用百分制统计它们的燃放质量,然后算出燃放质量的平均数$\bar{X_1}$。此时的$\bar{X_1}$距离总体燃放质量平均值μ可能仍然具有较大的误差。因此,我们可以再多抽样几次,分别将其燃放质量平均值,记为$\bar{X_2}$,$\bar{X_3}$,… $\bar{X_m}$。然后将这些平均值再取平均,记为$E(\bar{X})$。期望值$E(\bar{X})$会更加贴近总体均值μ。于是,这个估计就可以称为无偏估计。当然,这个例子不太恰当,仅作理解,因为已抽中的烟花便不能再次被抽中,因此无法保证多次抽样之间相互独立(可认为烟花总数远远大于抽样的数目,近似看为独立抽样)。同样的,在计算样本方差时,总是希望它能是总体方差的一个无偏估计。我们首先假设样本方差为$S_{pse}^2 = \frac{\textstyle\sum_{i=1}^n(x_i-\bar{X})^2}{n}$,其中,$\bar{X}$表示每组样本中的平均值,则其无偏估计为
$$
\begin{align}
E(S_{pse}^2)
&= E[\frac{\textstyle\sum_{i=1}^n(x_i-\bar{X})^2}{n}] \\
&= E\{\frac{\textstyle\sum_{i=1}^n[(x_i-\mu)-(\bar{X}-\mu)]^2}{n}\} \\
&= E\{\frac{\textstyle\sum_{i=1}^n[(x_i-\mu)^2-2(x_i-\mu)(\bar{X}-\mu)+ (\bar{X}-\mu)^2]}{n}\} \\
&= E[\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}-\frac{\textstyle\sum_{i=1}^n2(x_i-\mu)(\bar{X}-\mu)}{n}+\frac{\textstyle\sum_{i=1}^n (\bar{X}-\mu)^2}{n}] \\
&= E[\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}-2(\bar{X}-\mu)^2+(\bar{X}-\mu)^2] \quad (\text{此处对于求和来说,}\bar{X}-\mu\text{为常数;且}\frac{\textstyle\sum_{i=1}^n(x_i-\mu)}{n} = \frac{\textstyle\sum_{i=1}^nx_i}{n}-\mu = \bar{X}-\mu) \\
&= E[\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}-(\bar{X}-\mu)^2] \\
&= E[\frac{\textstyle\sum_{i=1}^n(x_i-\mu)^2}{n}] – E[(\bar{X}-\mu)^2] \\
&= \frac{1}{n} E[\textstyle\sum_{i=1}^n(x_i-\mu)^2] – E[(\bar{X}-\mu)^2] \\
&= \frac{1}{n} [\textstyle\sum_{i=1}^n \textit{Var}(x_i)] – E[(\bar{X}-\mu)^2] \\
&= \textit{Var}(X) – \textit{Var}(\bar{X}) \quad (\text{注意此处的} \textit{Var} \text{表示的是以} x_i \text{为变量,以其} \textit{m} \text{次独立抽样为一组样本求方差。}) \\
&= \sigma^2 – \frac{\sigma^2}{n} \quad (\text{根据方差性质3,}\textit{Var}(\bar{X}) = \textit{Var}(\frac{1}{n}\textstyle\sum_{i=1}^nx_i) = \frac{1}{n^2}\textit{Var}(\textstyle\sum_{i=1}^nx_i) = \frac{1}{n^2}[\textstyle\sum_{i=1}^n\textit{Var}(x_i)] \text{,又可将} \textit{Var}(x_i) \text{视为总体方差,于是} \textit{Var}(x_i) = \sigma^2 \text{。同理,} \textit{Var}(X) = \frac{1}{n} \textstyle\sum_{i=1}^n\textit{Var}(x_i) \text{亦可得出类似的结论。})\\
&= \textcolor{red}{\frac{n-1}{n}}\sigma^2 \\
\end{align}
$$
由上式可知,如果除以n,样本方差总是会小于总体方差。而从最终的结果可以看出,若将假设的样本方差$S_{pse}^2$乘以$\frac{n}{n-1}$,就可以得到样本方差是总体方差$\sigma^2$的无偏估计$S^2 = \frac{n}{n-1}S_{pse}^2 = \frac{n}{n-1}[\frac{\textstyle\sum_{i=1}^n(x_i-\bar{X})^2}{n}] = \frac{1}{n-1}\textstyle\sum_{i=1}^n(x_i-\bar{X})^2$。因此,样本方差在计算时是除以n-1而非n。
标准误为什么是标准差除以$\mathbf{\sqrt{n}}$
由标准误的定义可知,标准误可以视为样本均值$\bar{X_1}$,$\bar{X_2}$,… $\bar{X_m}$的总体方差(即抽样方差)的开平方。而由上一节的推导可知,样本均值的方差为
$$
\begin{aligned}
\textit{Var}(\bar{X})
&= \textit{Var}(\frac{1}{n}\textstyle\sum_{i=1}^nx_i) \\
&= \frac{1}{n^2}\textit{Var}(\textstyle\sum_{i=1}^nx_i) \quad (\text{方差性质2}) \\
&= \frac{1}{n^2}\textstyle\sum_{i=1}^n\textit{Var}(x_i) \quad (\text{方差性质3}) \\
&= \frac{1}{n^2}[\textit{Var}(x_1) + \textit{Var}(x_2) + … + \textit{Var}(x_n)] \\
&= \frac{1}{n^2}n\textit{Var}(x_1) \\
&= \frac{1}{n}\sigma^2
\end{aligned}
$$
因此标准误为$\sigma_n = \frac{\sigma}{\sqrt{n}}$。另外,还有一个抽样方差的概念,其定义为样本均值的总体方差,要注意与样本方差的区分。
参考
1. 标准差方差的性质
2. 方差的性质
3. 彻底理解样本方差为何除以n-1
4. 标准误(Standard Error)
5. 有没有懂统计的,标准误为什么等于标准差除以根号n,求公式推导过程?
(内容参考来自网络,侵权联系删)
可以尝试类似这样的额外CSS代码: