统计学和数理统计
推论统计学
描述性统计
什么是统计学:
- 统计学研究如何收集数据、分析数据、从数据做出有依据的推断结果。一言以蔽之,统计学是研究数据的科学。
- 统计学主要的数学工具是概率论,也广泛使用现代信息技术作为支撑,通过计算机和信息网络获取数据、进行建模、数据分析计算。
- 统计学是一门科学,不再是数学的一个分支。
描述性统计,统计学的做法分为两种:
- 描述性统计:从数据样本中计算一些平均值、标准差、最小值、最大值等概括统计量,画直方图、散点图等描述图形。
- 推断性统计:假定要研究的对象服从某种概率模型,收集数据后把数据用模型解释,并做出有概率意义的结论。
总体、个体和均值:
- 所要调查的对象全体叫做总体 (population),总体中每个成员叫做个体。
- 总体参数是描述总体特性的指标,简称参数。
- 如果总体中的个体是有限个,称个体总数 N 为总体容量。
- 总体平均或总体均值是参数,常用 \mu 表示。
- 总体方差是参数,常记为 \sigma^2。
- \sigma 称为总体标准差。
样本与估计:
- 如果总体只有有限个样本,虽然可以测量所有样本计算总体参数,但可能会消耗过大。
- 有些总体有无限个个体,比如,对某放射性物质测量固定长度时间内放射出的粒子数,每试验一次就有一个不同结果。
- 为了得到总体的信息,可以从总体中抽取一个有代表性的个体的集合,称为总体的一个样本,也叫观测数据。样本中个体的个数叫做样本量 (sample size)。
- 试图用样本的情况去判断总体的情况。注意,“有代表性”是一个不容忽视的要求。
- 从总体中抽取样本的工作叫做抽样 (sampling)。
设一个样本为 x_1, x_2, \dots, x_n,可计算:
- 样本均值:\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i
- 样本方差:s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
- s = \sqrt{s^2} 称为样本标准差。
估计:
- 如果样本确实是有代表性的,则当样本量 n 较大时,从样本计算的样本均值和样本方差可以与相应的总体均值和总体方差很接近。
- 利用样本计算出的对总体参数的估计值称为估计 (estimator 或 estimate)。
- 不同的方法可能给出不同的估计,而评判估计优劣的标准也不是唯一的。这方面有一些数学理论。
统计学抽样
在统计学中,抽样(Sampling)是一种推论统计方法,它是指从目标总体(Population,或称为母群)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。
简单随机抽样:从总体中随机地抽取样本,使得每一个容量为样本都有相同的概率被抽中。每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。在统计学的不同技术中需要使用随机数,比如在从统计总体中抽取有代表性的样本的时候,或者在将实验动物分配到不同的试验组的过程中,或者在进行蒙特卡罗模拟法计算的时候等等。
等距抽样(也称系统抽样):将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。
分层抽样:分层抽样是从统计总体抽取样本方法,将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。当总体内的子总体之间的差异较大,对每个子总体分别进行分层抽样调查,会令统计调查结果更为准确。子总体的分层必须为互斥,即每个总体的成员均只能属于一个分层。之后,可对每个子总体进行简单随机抽样或系统抽样。这样可令调查的代表性改善。
整群抽样(又称群集抽样):将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差。
统计学中,重抽样(或重采样,resampling)可指下列几种方法:
使用样本数据的子集(刀切法)或从数据中有放回地随机抽样(自助法),来估计样本统计量(如中位数、方差、百分位数)的精度。
统计学中,刀切法(jackknife)是一种重抽样方法,常用于对统计量的方差和偏差的估计。样本的刀切法估计量是指将样本去除每个元素后重新计算估计量,再将这些估计量取平均值。刀切法是自助法的一个线性近似。“刀切法”的名字由美国数学家约翰·图基提出,意在说明本方法像便携式小刀一样简单但实用,可解决多种统计问题。给定一个大小为 n 的样本,刀切法的估计量可以通过聚合每个大小为 n-1 子样本得出。
在进行显著性检验时交换数据的标签(称为置换检验,或精确检验、随机化检验、重随机化检验)。
使用样本的随机子集来验证模型(称为交叉验证)。交叉验证,有时亦称循环估计,是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的,是用来给模型作训练的新数据,测试模型的性能,以便减少诸如过拟合和选择偏差等问题,并给出模型如何在一个独立的数据集上通用化(即,一个未知的数据集,如实际问题中的数据)。
报告主要结果时必须一并报导效应值……如果测量值的单位在实际面上是有意义的(例如每人每日抽烟的香烟根数),则我们建议采用非标准化的效应值(例如回归系数或平均值差异)而不是标准化的效应值(例如相关系数)。— L. Wilkinson and APA Task Force on Statistical Inference (1999, p. 599)
等距抽样概述,假设从容量为 N(很大)的总体中抽取容量为 n 的样本,我们可以按下列步骤进行系统抽样:
先将总体的 N 个个体编号。
确定分段间隔 k,对编号进行分段。
当 \dfrac{N}{n} 是整数时,取 k=\dfrac{N}{n}。
当 \dfrac{N}{n} 不是整数时,假设余数为 r(0<r<n),可随机地从 N 个个体中剔除余数 r 个个体,此时取 k=\dfrac{N-r}{n}。
在第一段用简单随机抽样确定第 1 个个体的编号 \ell(\ell\le k)。
将编号为 \ell, \ell+k, \ell+2k, \dots, \ell+(n-1)k 的个体抽出。
我们知道 \ell, \ell + k, \ell + 2k, \dots, \ell + (n - 1)k 是以 \ell 为首项、以 k 为公差的等差数列,设第 n 段抽到的编号为 a_n,则 a_n = \ell + (n - 1)k。故系统抽样也叫等距抽样。
分层抽样概述,当总体是由差异明显的几部分(层)构成时,如果我们用简单随机抽样或系统抽样,有可能抽取的数据全部来自同一部分(层)。为了避免这种情况发生,我们可以按各层所占的比例一层一层抽,即为分层抽样。
分层抽样的步骤:
- 分层:将总体分成互不交叉的层。
- 确定抽样比:总体 N,样本容量 n,则抽样比例为 \dfrac{n}{N}。
- 分层抽样:在各层中按抽样比例 \dfrac{n}{N} 独立地进行简单随机抽样。
- 汇合样本:将各层抽取的样本合并为最终样本。
例如:第一层 X 有 n 个元素,第二层 Y 有 m 个元素。
容易得出:
\bar a=\dfrac{n\bar X+m\bar Y}{n+m}
对于方差会麻烦一点:
\begin{aligned} D(a)&=E(a^2)-(Ea)^2\\ &=\dfrac{nE(X^2)+mE(Y^2)}{n+m}-\left(\dfrac{nEX+mEY}{n+m}\right)^2\\ &=\dfrac{nD(x)+mD(Y)}{n+m}+\dfrac{nm(EX-EY)^2}{(n+m)^2} \end{aligned}
统计图形
表格与图形概括:
- 实际数据量可能很大,比如几千、几万、几十万、几百万观测值都是可能的。
- 直接浏览数据可以获得一些直观印象,但是不能形成总体分布概念。
- 总体分布包括:变量是离散取值还是连续取值的,如果离散取值,所有可取值集合是什么,每种取值出现多少次,占百分之几。
- 如果变量是连续取值的,需要了解变量的取值范围,然后在取值范围内分段,对每段的取值个数进行计数并计算百分比,可以画出每段的比例的图形(称为直方图),可以计算简单的样本平均值、标准差等,可以画密度估计图、茎叶图等。
频率分布表:
- 对离散型总体(如性别、职业等),只要列出样本中每个值的次数和比例。
- 对于连续型总体,可以适当分组后列出每组的观测个数和百分比。
- 做出的表格称为频率分布表。
频率直方图:
- 离散型总体的各不同类型个数可以用条形图表示。
- 连续型数据分组后可以绘制频数直方图。这与频率分布表类似,只不过分组和频数都体现在图形中。以横坐标表示分组,以纵坐标表示频数,一个组用一个小矩形表示。
- 纵坐标也可以用频率,这样图形不变,只有纵坐标刻度变化,称为频率直方图。
- 纵坐标还可以适当伸缩使得小长方形的总面积等于 1,用来作为分布密度估计,称为密度直方图。
- 下面的图用的是频数。
茎叶图:
- 茎叶图可以看成水平放置的直方图。
- 茎叶图可以把所有数据点画到图上。
- 双茎叶图可以比较两个变量。
统计图形,又称为统计图、统计学图形、图解方法、图解技术、图解分析方法或图解分析技术,是指统计学领域当中用于可视化定量数据的信息图形。有时,人们也把统计图形与各种统计学表格统称为统计图表或统计学图表。
统计学与数据分析过程可大致分为两个组成部分:定量分析方法(Quantitative techniques)和图解分析方法(graphical techniques)。定量分析方法是指那套产生数值型或表格型输出的统计学操作程序;比如,包括假设检验、方差分析、点估计、信赖区间以及最小二乘法回归分析。这些手段以及与此类似的其他技术方法全都颇具价值,属于是经典分析方面的主流。
另一方面,还有一大套我们一般称之为图解分析方法的统计学工具。这些工具包括散点图、直方图、概率图(probability plot)、残差图(residual plot)(residual plot)、箱形图、块图以及双标图。探索性数据分析(Exploratory data analysis,EDA)就密切地依赖于这些手段以及与此类似的其他技术方法。图解分析操作程序不仅仅是在 EDA 背景下才使用的工具;在检验假设、模型选择、统计模型验证(统计模型验证)、估计量(estimator)选择、关系确定、因素效应判定以及离群值检出方面,此类图解分析工具还可以作为最佳捷径,用来深入认识数据集。此外,优质的统计图形还可以作为一种令人信服的沟通手段,用来向他人传达存在于数据之中的基本讯息。
频率分布直方图:横轴表示数据,纵轴表示频率除以组距。数据分组可以是等距的,也可以是不等距的,要根据数据的特点而定。有时为了方便,往往按等距分组,或者除了第一和最后的两段,其他各段按等距分组。因此,图像中矩形的面积就是频率,频率等于频数除以总数。
干叶图(也称茎叶图)是一种显示所有数据的统计图表。在干叶图中,每一个数据分为“干”(茎)和“叶”两个部分。然后,决定干将代表什么,叶将代表什么。在普遍情况,叶包含数字的最后一个数字,干包含所有其他数字。在数量庞大时,数值可以四舍五入到用于叶的特定位置值(例如数百个位置)。舍五入位置值左边的剩余数字用作。
文氏图(Venn diagram),或译温氏图、Venn 图、范恩图、维恩图、维恩图解、范氏图、韦恩图、卞氏图表等,是在集合论(或者类的理论)数学分支中,在不太严格的意义下用以表示集合(或类)的一种图解。它们用于展示在不同的事物群组(集合)之间的数学或逻辑联系,尤其适合用来表示集合(或)类之间的“大致关系”,它也常常被用来帮助推导(或理解推导过程)关于集合运算(或类运算)的一些规律。
在文氏图法中,如果有论域,则以一个矩形框(的内部区域)表示论域;各个集合(或类)就以圆/椭圆(的内部区域)来表示。两个圆/椭圆相交,其相交部分表示两个集合(或类)的公共元素,两个圆/椭圆不相交(相离或相切,而实际上在文氏图中相切是没有什么意义的,因为文氏图是以图形的内部区域来表示的)则说明这两个集合(或类)没有公共元素。
欧拉图可能在外观上同文氏图是一致的。它们之间的区别只在于它们的应用领域中,就是说在被分割的全集的类型中。欧拉图展示对象的特定集合,文氏图的概念更一般的适用于可能的联系。文氏图和欧拉图没有合并的原因可能是,欧拉的版本是早在 100 多年前就出现了的,欧拉已经有了足够多的成就了,而维恩只留下了这么一个图。在欧拉图和文氏图之间的区别只是在想法上,欧拉图要展示特定集合之间的联系,而文氏图要包含所有可能的组合。
参数估计
总体和样本:
- 如果 X 是从总体中随机抽样得到的个体,则 X 是随机变量,X 的分布就是总体的分布。
- 如果对总体进行有放回的随机抽样,就得到独立同分布的、和 X 同分布的随机变量 X_1, X_2, \dots, X_n。我们称 X_1, X_2, \dots, X_n 是来自总体 X 的简单随机样本。
如果 X_1, X_2, \dots, X_n 独立同分布,和 X 同分布,就称 X 是总体,称 X_1, X_2, \dots, X_n 是总体 X 的简单随机样本,称观测数据的个数 n 为样本量。
- 为了简单,也把总体 X 的简单随机样本简称为总体 X 的样本。
- 在实际问题中得到的总是简单随机样本 X_1, X_2, \dots, X_n 的观测值 x_1, x_2, \dots, x_n。我们也称 x_1, x_2, \dots, x_n 是总体 X 的简单随机样本。
在统计学中,常常不把 X_1, X_2, \dots, X_n 与它们的观测值 x_1, x_2, \dots, x_n 严格区分,这是为了符号使用的方便。
- 当对数据进行统计分析时,用大写的 X_1, X_2, \dots, X_n;实际计算时更多地用小写的 x_1, x_2, \dots, x_n。
- 在统计问题中,总体 X 的分布形式往往是已知的。例如重复测量一个物体的重量时,认为总体 X 服从正态分布 N(\mu, \sigma^2),未知参数是 (\mu, \sigma^2),问题是根据来自总体 X 的样本 X_1, X_2, \dots, X_n 估计总体参数 (\mu, \sigma^2)。
- 观测放射性钋放射 \alpha 粒子时,总体 X 服从泊松分布 P(\lambda),未知参数是 \lambda,问题是根据来自总体 X 的样本 X_1, X_2, \dots, X_n 估计 \lambda。
估计量(统计量):设 X_1, X_2, \dots, X_n 是总体 X 的简单随机样本,\theta 是总体 X 的未知参数。如果 g(x_1, x_2, \dots, x_n) 是已知函数,就称
\hat{\theta} = g(X_1, X_2, \dots, X_n)
是 \theta 的估计量,简称为估计(estimator)。换句话说,估计或估计量是从观测数据 X_1, X_2, \dots, X_n 能够直接计算的量。计算后得到的值称为估计值。估计量也称为统计量(statistic)。
设 \hat{\theta} 是总体参数 \theta 的估计,作为随机变量 X_1, X_2, \dots, X_n 的函数,估计量 \hat{\theta} 也是随机变量。估计量是样本的函数。用估计量 \hat{\theta} 去估计总体参数 \theta,我们希望 \hat{\theta} 能够尽可能与 \theta 接近,但由于随机性影响误差是不可避免的。
均值的估计:设总体均值 \mu = E[X] 存在,X_1, X_2, \dots, X_n 是总体 X 的简单随机样本。均值 \mu 的估计定义为
\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i
由于 \bar{X}_n 是从样本计算出来的,所以是样本均值。样本均值 \bar{X}_n 有如下的性质:
\bar{X}_n 是 \mu 的无偏估计。这是因为 E[\bar{X}_n] = \mu。
\bar{X}_n 是 \mu 的强相合估计,从而是相合估计。这是因为从强大数律得到
\lim_{n \to \infty} \bar{X}_n = \mu
方差的估计:
总体方差 \sigma^2 = \text{Var}(X) 的点估计由
S^2 = \frac{1}{n - 1} \sum_{j=1}^n (X_j - \bar{X}_n)^2
定义。由于 S^2 是从样本计算出来的,所以是样本方差。
标准差 \sigma 的估计:
由于 S^2 是 \sigma^2 的估计,所以定义标准差 \sigma 的估计为
S = \sqrt{S^2} = \sqrt{\frac{1}{n - 1} \sum_{j=1}^n (X_j - \bar{X}_n)^2}
S 是样本标准差。由于 S \to \sigma,成立,所以 S 是 \sigma 的强相合估计。
但是 S 一般不是 \sigma 的无偏估计。实际上用 Jensen 不等式(或柯西-施瓦茨不等式)得到
E[S] = E[1 \cdot S] \leq \sqrt{E[1] \cdot E[S^2]} = \sigma
等号成立时有不全为零的常数 a, b 使得 P(aS + b = 0) = 1,于是 S = b/a。所以只要 S 等于常数的概率小于 1,则 E[S] < \sigma。
样本均值、方差、标准差的理论结果:设 X_1, X_2, \dots, X_n 是总体 X 的简单随机样本,\mu = E[X],\sigma^2 = \text{Var}(X)。
- 样本均值 \bar{X}_n 是总体均值 \mu 的强相合无偏估计。
- 样本方差 S^2 是总体方差 \sigma^2 的强相合无偏估计。
- 样本标准差 S 是总体标准差 \sigma 的强相合估计。
在统计学中,自由度(degree of freedom,df)是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。
直观理解:
若存在两个变量 a,b,而 a+b=6,那么自由度为 1。因为只有 a 能自由变化,b 会被 a 的值所限制。
估计总体的平均数 \mu 时,自由度为 n(n 个数都相互独立)。
估计总体的方差 \sigma^2 时,自由度为 n-1。因为用了样本平均数 \bar{x} 这个约束条件,有一个数据不再自由(样本的均值,也是随机变量,是随着样本的变化可能改变的)。
回归中的自由度:
一元线性回归中,残差平方和的自由度为 n-2(估计了两个参数 \beta_0, \beta_1)
多元线性回归中,自由度为 n-p-1(p 个自变量加一个截距)
相关分析
相关(correlation)又称相关性、关联,在概率论和统计学中,指一种随机变量或现象与另一种或几种之间变动伴随关系。相关关系又称统计关系,一般会描述这些变量或现象关联程度的强度和方向。
在统计学中,相关的意义是:用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点用来衡量数据相关性而定义的系数,称作相关系数。在评估相关时,利用相关系数来计量的两个或几个随机变量协同变化的程度;当变量间呈现同一方向的变化趋势时,即同时增加或减少,称为正相关,反之,则称为负相关。
回归分析(regression analysis)则是研究变量间依赖关系的一种统计方法,旨在建立数学模型来描述因变量与一个或多个自变量之间的关系。简单来说,相关分析关注「是否一起变」,回归分析关注「怎么变」。
统计方法的核心思想可以用一句话概括:数据 = 趋势(可解释部分)+ 波动(随机/不可控部分)。
统计方法所做的,就是判断「趋势强到足以压过波动了吗?」——回归用残差平方和衡量没解释掉的波动,独立性检验用 (O-E)^2/E 衡量「观察到的表格」与「独立时应有的表格」差多少。这两个量的结构一致——都是在度量「偏离」。
我们先从描述两个变量之间关系强弱的相关分析说起,再进入研究变量之间具体函数关系的回归分析,最后讨论假设检验的基本框架。
回归分析常见题型:
计算回归方程:给出数据,求 \hat{a}, \hat{b},写出回归方程
解释斜率含义:\hat{b} 表示 x 每增加 1 单位,y 平均增加 \hat{b} 单位
预测:将 x 值代入回归方程求 \hat{y}
残差计算:e_i = y_i - \hat{y}_i
判定系数解释:R^2 越大,模型拟合越好
相关分析常见题型:
计算相关系数:使用公式计算 r
解释相关系数:|r| 越接近 1,线性相关越强
判断相关类型:r>0 为正相关,r<0 为负相关
识别伪相关:能指出第三变量可能的影响
独立性检验常见题型:
列联表分析:计算期望频数 E_{ij}
计算卡方值:\chi^2 = \sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}}
判断独立性:比较 \chi^2 与临界值
自由度计算:df = (r-1)(c-1)
易错点提醒:
相关 \neq 因果:永远要记得这个原则
r=0 不意味着没关系:可能是非线性关系
回归直线一定过 (\bar{x}, \bar{y}):可用于检验计算结果
残差之和为 0:可用于检验计算
\chi^2 检验的适用条件:期望频数不能太小
皮尔逊相关系数
对于不同测量尺度的变量,有不同的相关系数可用。在高中阶段,我们一般默认相关系数指的是皮尔逊相关系数(Pearson’s r)——衡量两个等距尺度或等比尺度变量之线性相关性。这是最常见的相关系数,也是学习统计学时第一个接触的相关系数。
为了描述相关性,我们先引入协方差的概念。直观地说,协方差度量的是两个变量「一起波动」的倾向——当 X 偏大时 Y 是否也倾向于偏大?
对于随机变量 X, Y,称
E[(X - EX)(Y - EY)]
为 X 与 Y 的协方差,记作 \operatorname{Cov}(X, Y)。
协方差描述了两个变量协同变化的趋势,但它的值受变量量纲影响。例如,身高用厘米和用米衡量时,协方差会相差 100 倍,这不便于直接比较。因此我们引入皮尔逊相关系数来消除量纲的影响。
对于随机变量 X, Y,称
\rho_{X,Y} = \frac{ \operatorname{Cov}(X, Y)}{ \sigma(X)\sigma(Y) }
为 X 与 Y 的 Pearson 相关系数。样本相关系数 r 是其估计值。
核心思想:相关系数本质是「协方差除以标准差的乘积」,分母起到标准化的作用,消除了量纲的影响,将取值限制在 [-1, 1] 之间。
协方差具有以下重要性质:
对称性:\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)
线性性:对任意常数 a, b,\operatorname{Cov}(aX + bY, Z) = a \cdot \operatorname{Cov}(X, Z) + b \cdot \operatorname{Cov}(Y, Z)
与方差的关系:
DX = \operatorname{Cov}(X, X)
D(X + Y) = DX + 2 \operatorname{Cov}(X, Y) + DY
重要结论:D(X + Y) = DX + DY 当且仅当 \operatorname{Cov}(X, Y) = 0。而 \operatorname{Cov}(X, Y) = 0 的一个充分而不必要条件是 X,Y 独立:
\operatorname{Cov}(X, Y) = E[(X - EX)(Y - EY)] = E(X - EX) E(Y - EY) = 0
补充:你可能会发现协方差的性质与向量内积的运算性质在形式上高度一致。在泛函分析的视角下,对于给定的概率空间,其上的全体随机变量构成一个线性空间,而协方差是这个空间上的一个内积,标准差则是由该内积导出的范数。
相关系数的理解
相关系数的性质与解释:
取值范围:|\rho_{X,Y}| \leq 1,这一性质的严格证明来自柯西-施瓦茨不等式。
相关性强度:|\rho_{X,Y}| 越大,则 X 与 Y 之间的线性关联程度越强。
不相关:当 \rho_{X,Y} = 0 时我们称随机变量 X 与 Y 不相关,此时 X 和 Y 之间不存在线性关系。
极端情况:
当存在实数 a 和正实数 b 使得 P(X = a + bY) = 1 时,有 \rho_{X,Y} = 1(完全正相关)。
当存在实数 a 和负实数 b 使得 P(X = a + bY) = 1 时,有 \rho_{X,Y} = -1(完全负相关)。
柯西-施瓦茨不等式是相关系数取值范围的数学保证:对任意实数序列 \{a_i\}, \{b_i\},有
\left(\sum a_i b_i\right)^2 \leq \left(\sum a_i^2\right)\left(\sum b_i^2\right)
令 a_i = x_i - \bar{x},b_i = y_i - \bar{y},立即得到 S_{xy}^2 \leq S_{xx} \cdot S_{yy},即 r^2 \leq 1。等号成立当且仅当存在 \lambda 使得 b_i = \lambda a_i,即所有点精确地在一条过 (\bar{x}, \bar{y}) 的直线上。
在实际使用中,对相关系数的解释依赖于具体的应用背景和目的。例如:
在物理实验中,0.9 的相关系数可能被认为很低
在社会科学中,由于受复杂因素影响,0.9 的相关系数是相当高的
三个常见误区(高考重点):
相关不等于因果:r\neq 0 只能说明「同时变化」,不自动说明「谁导致谁」。例如,冰淇淋销量与溺水人数正相关,但显然不是冰淇淋导致了溺水——它们都受气温这个第三变量的影响。
r=0 不代表没关系:相关系数只衡量线性关系。经典反例:Y = X^2(在对称区间上),X 和 Y 有很强的非线性关系,但相关系数为 0。
离群点影响大:一个异常点就可能把相关系数「拽歪」,严重影响回归线的位置和方向。
在一元线性回归中,斜率和相关系数有如下关系:
\hat{b} = r \cdot \frac{s_y}{s_x}
重要区分:
r 描述「线性关系的强弱(无量纲)」
\hat{b} 描述「单位变化带来的响应变化(有量纲)」
r 大并不意味着斜率大(因为单位尺度会影响 \hat{b})
相关与独立的关系也是统计学中的核心概念:
独立是分布层面的:P(X \in A, Y \in B) = P(X \in A)P(Y \in B)
零相关只说明线性关系不明显:\text{Cov}(X,Y) = 0
一般情况下:「零相关 \nRightarrow 独立」,两随机变量不相关是它们相互独立的必要而不充分条件。但在联合正态等特殊分布族里,零相关可以推出独立。
相关系数的计算
掌握了相关系数的定义之后,我们来看具体的计算公式。
高中常用公式:
r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}
简化计算形式(考试中更实用):
r = \frac{\sum_{i=1}^{n} x_i y_i - n\bar{x}\bar{y}}{\sqrt{\sum_{i=1}^{n} x_i^2 - n\bar{x}^2} \sqrt{\sum_{i=1}^{n} y_i^2 - n\bar{y}^2}}
这两个公式是等价的,简化形式是将 (x_i - \bar{x})(y_i - \bar{y}) 展开并利用 \sum x_i = n\bar{x} 化简得到的。在考试中,简化形式避免了逐项减去均值的繁琐计算。
上面我们从代数角度理解了相关系数,其实它还有一个非常优美的几何解释。将数据中心化后,得到两个新向量:
\vec{X} = (x_1 - \bar{x}, x_2 - \bar{x}, \cdots, x_n - \bar{x})
\vec{Y} = (y_1 - \bar{y}, y_2 - \bar{y}, \cdots, y_n - \bar{y})
相关系数 r 的公式恰恰是这两个向量夹角的余弦值:
r = \cos\theta = \frac{\vec{X} \cdot \vec{Y}}{|\vec{X}||\vec{Y}|}
r = 1:两向量同向平行(完全正相关)
r = 0:两向量正交(完全不线性相关)
r = -1:两向量反向平行(完全负相关)
|r| \le 1 的数学保证来自 柯西-施瓦茨不等式——这正是上一节中从代数角度得到的同一个结论,只不过换了一种几何语言。
理解公式的关键:
分子 \sum (x_i - \bar{x})(y_i - \bar{y}) 衡量的是变量同向变化的程度
分母 \sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2} 起到标准化作用
|r| \le 1 恒成立,当 r 趋近于 1 时正相关性很高,当 r 趋近于 -1 时负相关性很高,当 r 趋近于 0 时相关性较弱
相关系数还有一种用标准分数(又称 z-score 或 Z-分数)表示的形式。
原始和标准分数
原始分数(raw score)指的是直接测得的原始数据。比如一次考试的实际得分(满分 100 分考了 75 分),这个 75 分就是原始分数。它的问题是:不同考试或不同变量的度量单位不同,分数之间无法直接比较。比如英语 75 分和数学 75 分,含金量可能完全不同——英语平均分是 60 分,数学平均分是 80 分。
标准分数(standard score,又称 Z 分数)将原始分数转换为“以标准差为单位”的数值,消除单位和量纲的影响:
z = \frac{x - \mu}{\sigma}
其中:
- x 是原始分数
- \mu 是总体平均值
- \sigma 是总体标准差
物理意义:z 表示这个分数距离平均值有几个标准差。z = +1 意味着这个分数比平均高出一个标准差,z = -1.5 则意味着比平均低 1.5 个标准差。
标准分数的性质:
- 平均值为 0
- 标准差为 1
- z 是无纲量,可以直接比较不同变量的取值
将两个变量分别标准化后,相关系数可以写成:
r = \frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{X_i - \overline{X}}{\sigma_X} \right) \left( \frac{Y_i - \overline{Y}}{\sigma_Y} \right)
直观理解:先分别把 X 和 Y 转换成标准分数,然后再求每一对标准分数的乘积的平均值。
下面展示这个公式是怎么从高中学的相关系数公式化简来的。我们先写出相关系数的标准形式:
r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}
这个公式看起来有点复杂,其实它就是用两个向量的夹角余弦公式——高中几何的知识。这里分母是两个向量的长度,分子是它们的点积。
样本标准差的定义是:
\sigma_X = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}, \quad \sigma_Y = \sqrt{\frac{\sum_{i=1}^{n} (y_i - \bar{y})^2}{n-1}}
把标准差代回去,分母可以写成:
\sqrt{\sum (x_i - \bar{x})^2} = \sigma_X \sqrt{n-1}, \quad \sqrt{\sum (y_i - \bar{y})^2} = \sigma_Y \sqrt{n-1}
然后分子分母同时除以 (n-1),就变成了:
r = \frac{\frac{1}{n-1} \sum (x_i - \bar{x})(y_i - \bar{y})}{\sigma_X \sigma_Y}
再把每个 (x_i - \bar{x}) 写成 \sigma_X \cdot z_{X_i} 的形式,其中 z_{X_i} = \dfrac{x_i - \bar{x}}{\sigma_X} 就是标准分数。于是得到:
r = \frac{1}{n-1} \sum_{i=1}^{n} z_{X_i} z_{Y_i}
或者写成完整形式:
r = \frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{\sigma_X} \right) \left( \frac{y_i - \bar{y}}{\sigma_Y} \right)
这正是我们要的标准分数形式。
为什么除以 n-1 而不是 n:这里用 n-1 是为了得到无偏估计。如果你用总体标准差的公式(除以 n),计算出的样本标准差会偏小,跟真实值有偏差。简单说:因为我们在用样本数据估计平均值 \bar{x},这会“消耗”一个自由度,所以用 n-1 才能补上这个自由度造成的偏差。统计学上把这种现象叫“贝塞尔修正”(Bessel’s correction)。
相关系数就是标准化后变量的平均乘积。当两个变量同向变化时(X 高 Y 也高),乘积为正;当它们反向变化时,乘积为负。这就是为什么 r 始终介于 -1 到 +1 之间——标准化后两个向量的点积不可能超过各自长度 1 的乘积。
为什么用标准分数:这种表示揭示了相关性的本质——它本质上是“标准化后变量的平均乘积”。不管原始数据的尺度如何,只要转换成标准分数,相关系数的计算结果都是一样的。
回归分析
知道了两个变量之间存在关联之后,下一步自然的问题是:这种关系具体长什么样?能不能用一个数学公式来描述?这就是回归分析要回答的问题。
「回归」这个名称来源于英国统计学家弗朗西斯·高尔顿(Francis Galton)在 19 世纪末的一项研究。他发现,虽然高个子父母的子女往往也比较高,但子女的身高有向总体平均值「回归」的趋势——特别高的父母,其后代往往没有他们那么高;特别矮的父母,其后代往往比他们稍高一些。高尔顿把这种现象称为回归均值(regression toward the mean),后来人们就把这一类用数学模型描述变量间关系的统计方法统称为「回归分析」。
回归分析的核心目标是:给定一组关于自变量 x 和因变量 y 的观测数据 (x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n),找到一个函数 \hat{y} = f(x),使得这个函数尽可能好地描述 x 与 y 之间的关系。当 f 是一次函数时,就是一元线性回归——这是高中阶段最核心的回归模型。
最小二乘估计
当 x_i 和 y_j 高度相关时,我们知道数据 (x_1,y_1),\dots,(x_n,y_n) 会分散在一条直线的附近。我们将这条直线叫作回归直线。
在统计学中,对一个变量或参数符号上方加一个「帽子」符号(\hat{x}),通常表示该参数的估计值或预测值:
参数估计:如果 \beta 是总体中的真实参数,那么 \hat{\beta} 表示基于样本数据计算出的参数估计量
预测值:\hat{Y} 表示模型根据自变量 X 预测出来的数值,即拟合值
区别:「帽子」符号明确区分了理论上的真实总体参数(无帽子)和基于样本计算出的样本统计量(有帽子)
例如:在回归分析中,总体方程为 Y = a + bX + \varepsilon,实际估计出的方程为 \hat{Y} = \hat{a} + \hat{b}X。
给定 n 对数据,用 \ell:y=\hat a+\hat bx 表示要求的直线,在平行于 y 轴的方向,做所有点到直线 \ell 的连线,我们用这 n 个距离的平方和,来衡量这 n 对观测数据远离直线 \ell 的程度。如果 \hat a,\hat b 使得:
Q(\hat a,\hat b)=\sum_{i=1}^n[y_i-(\hat a+\hat bx_i)]^2
最小,则称直线 \ell:y=\hat a+\hat bx 是数据的回归直线。得到回归直线后,只要 x_i 与 y_j 的相关性较强,对于新的 x 就可以用回归直线上的点 \hat y=a+bx 作为 y 的预测值。事实证明,相关系数 |r| 越接近于 1,预测就越准确,我们将在残差分析中详细讲解。
所谓最小二乘,即是让残差二乘(平方)和最小的方法,当然这是废话。
对上面的目标函数 Q 分别对 \hat{a} 和 \hat{b} 求偏导并令其为零,可以得到正规方程(normal equations),解出回归系数的公式:
\hat{b} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{\sum_{i=1}^{n} x_i y_i - n\bar{x}\bar{y}}{\sum_{i=1}^{n} x_i^2 - n\bar{x}^2}
\hat{a} = \bar{y} - \hat{b}\bar{x}
重要性质:回归直线一定过样本中心点 (\bar{x}, \bar{y})。这从 \hat{a} 的公式可以直接看出。
残差分析
误差和残差是两个容易混淆但有本质区别的概念:
误差(error):观测值与总体真值之间的差异(通常未知),即 \varepsilon_i = Y_i - (\beta_0 + \beta_1 x_i)
残差(residual):观测值与样本估计值之间的差异(可计算),即 e_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)
关键区别:
误差是理论上的随机量,相互独立。
残差是样本层面的具体数值,由于 \sum e_i = 0 的约束,残差之间不是相互独立的。
统计误差的平方和除以 \sigma^2 服从自由度为 n 的卡方分布,而残差的平方和除以 \sigma^2 服从自由度为 n-1 的卡方分布。这 1 个自由度的差异就是贝塞尔校正(Bessel’s correction)——这正是我们用 n-1 而非 n 来估计方差的原因。
对数据 x_j,y_j 建立了回归直线 \ell 后,我们用回归直线 \ell 上的 \hat y_j=\hat a+\hat bx_j 作为 y_j 的预测值,预测误差是真实值减去预测值:
\bar\varepsilon_j=y_j=\hat y_j=y_j-\hat a-\hat bx_j
我们也称 \hat\varepsilon_j 为残差,称残差的平方和
Q=\sum_{j=1}^n\hat\varepsilon_j^2=\sum_{j=1}^n(y_j-\hat a-\hat bx_j)^2=Q(\hat a,\hat b)
为残差平方和。Q 较小时,\ell 代表了 x,y 之间的线性关系。
y_j=\hat a+\hat bx_j+\hat\varepsilon_j,\quad j=1,2,\dots,n
残差的性质:
残差之和为零:\sum e_i = 0。
残差与自变量不相关:\sum x_i e_i = 0。
这两条性质直接来源于正规方程,可以用来检验计算结果是否正确。
残差的另一个重要用途是估计误差方差 \sigma^2。\sigma^2 的无偏估计为:
\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^{n} e_i^2 = \frac{Q(\hat a,\hat b)}{n-2}
分母是 n-2 而不是 n(因为估计了两个参数 \beta_0, \beta_1,损失了两个自由度——关于自由度的详细讨论见后文)。
在实际应用中,还可以通过残差图(将残差 e_i 对 x_i 或 \hat{Y}_i 作散点图)来检查模型假设是否成立:如果残差随机地散布在零附近,没有明显的趋势或模式,说明线性模型是合适的;如果残差呈现出系统性的弯曲或喇叭口形状,则可能需要考虑非线性模型或异方差问题。
题型三 计算残差及残差图分析拟合效果
总结:
- 残差:对于响应变量 Y,通过观测得到的数据称为观测值,通过经验回归方程得到的 \hat{y} 称为预测值,观测值减去预测值称为残差.
- 残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
- 利用残差图判断模型拟合效果的方法:残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.
决定系数 R^2
决定系数 R^2 也可以用来比较两个模型的拟合效果,R^2 的计算公式为
R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2}.
在 R^2 表达式中,\sum_{i=1}^n (y_i - \bar{y})^2 与经验回归方程无关,残差平方和 \sum_{i=1}^n (y_i - \hat{y}_i)^2 与经验回归方程有关。
因此 R^2 越大,表示残差平方和越小,即模型拟合效果越好;R^2 越小,表示残差平方和越大,即模型的拟合效果越差。
一元线性回归模型
为了统计分析的方便,我们认为成对数据 (x_j,y_j) 满足模型
Y_j=a+bx_j+\varepsilon_j,\quad j=1,2,\dots,n
其中的 a,b 是未知常数,\{\varepsilon_j\} 是独立同分布的随机变量,服从正态分布 N(0,\sigma^2),详见下面(正态假设),其中的 \sigma^2 是未知正数,代表了随机误差的强弱,\sigma^2 越大,说明随机误差越强。
这个模型便是一元线性回归模型,其中 a,b 分别是直线 y=a+bx 的截距和斜率,称为回归参数。我们称 x_j 是设计变量,或者输入变量,它表示得到 Y_j 时的输入条件。我们将 x_j 看作常量,不做随机变量处理。Y_j 是观测变量,它是输入条件 x_j 后得到的观测结果,我们称 (x_j,y_j) 是来自一元线性回归模型的样本。
注意这里从「拟合」到「模型」的转变:高中阶段把回归看作「找一条最合适的直线」,而概率模型则认为数据背后存在一个真实的线性关系 \beta_0 + \beta_1 x,我们观测到的 Y_i 是这个真实值加上随机扰动 \varepsilon_i 的结果。最小二乘法给出的 \hat{\beta}_0, \hat{\beta}_1 是对真实参数的估计。
为了保证最小二乘估计的良好性质,通常需要以下假设(称为经典假设):
线性性:Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i
零均值:E(\varepsilon_i) = 0
同方差性:\text{Var}(\varepsilon_i) = \sigma^2(常数)
无自相关:\text{Cov}(\varepsilon_i, \varepsilon_j) = 0, \; i \neq j
非随机设计:x_i 是非随机的,且 S_{xx} > 0
若进一步假设 \varepsilon_i \sim N(0, \sigma^2),则称为经典正态线性回归模型。
在上述假设下,最小二乘估计量具有以下优良性质:
无偏性:E(\hat{\beta}_1) = \beta_1,即估计量的期望等于真值
方差:\text{Var}(\hat{\beta}_1) = \dfrac{\sigma^2}{S_{xx}},其中 S_{xx} = \sum(x_i - \bar{x})^2
Gauss-Markov 定理:在经典假设下,最小二乘估计量 \hat{\beta}_0, \hat{\beta}_1 是最佳线性无偏估计量(Best Linear Unbiased Estimator,简称 BLUE)。
即:在所有线性无偏估计量中,最小二乘估计量的方差最小。这个定理告诉我们,不需要正态假设,只要满足基本条件,最小二乘法就是「最优的」线性无偏估计方法。换句话说,高中学的回归公式不是随意选的——它在数学上被证明是「最好的」。
一元非线性回归
并非所有变量之间的关系都是线性的。对于某些非线性函数,可以通过适当的变量变换转化为线性形式,再用线性回归的方法求解:
| 原始模型 | 变换方法 | 线性化形式 | 适用场景 |
|---|---|---|---|
| y = \alpha + \beta \log x | 令 t = \log x | y = \alpha + \beta t | 对数函数关系 |
| y = ae^{bx} | 令 Y = \ln y | Y = \ln a + bx | 指数增长 / 衰减 |
| y = ax^b | 令 Y = \ln y, X = \ln x | Y = \ln a + bX | 幂函数关系 |
| y = \dfrac{1}{a+bx} | 令 Y = 1/y | Y = a + bx | 反比例关系 |
| y = \dfrac{x}{ax+b} | 令 Y = x/y | Y = ax + b | 分式线性 |
变换法的注意事项:变换后再做最小二乘,最小化的目标函数与直接在原始模型上做最小二乘不同。例如对 y = ae^{bx},变换法最小化的是 \sum(\ln y_i - \ln a - bx_i)^2,而非 \sum(y_i - ae^{bx_i})^2。这会改变误差结构,解释时要谨慎。
广义线性模型(Generalized Linear Model, GLM)将经典线性模型推广到非正态响应变量,由三部分组成。
- 随机成分:Y_i 服从指数族分布(正态、二项、泊松、Gamma 等)
- 系统成分:线性预测子 \eta_i = \mathbf{x}_i^\mathsf{T}\boldsymbol{\beta}
- 连接函数:g(\mu_i) = \eta_i,其中 \mu_i = E(Y_i)
| 分布 | 典型连接函数 | 模型名称 | 应用场景 |
|---|---|---|---|
| 正态 N(\mu, \sigma^2) | 恒等:g(\mu)=\mu | 线性回归 | 连续响应 |
| 二项 B(n,p) | Logit:g(p)=\ln\frac{p}{1-p} | Logistic 回归 | 分类问题 |
| 泊松 P(\lambda) | 对数:g(\lambda)=\ln\lambda | 泊松回归 | 计数数据 |
逻辑回归(Logistic Regression,逻辑斯蒂回归)是最常用的 GLM 特例。对于二分类问题 Y_i \in \{0,1\}:
\ln\frac{p_i}{1-p_i} = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}
等价于 p_i = \dfrac{1}{1+e^{-\mathbf{x}_i^\mathsf{T}\boldsymbol{\beta}}},其中 \sigma(z) = \dfrac{1}{1+e^{-z}} 是 Sigmoid 函数。
假设检验
置信区间
在统计学中,一个概率样本的置信区间 (confidence interval, CI),是对产生这个样本的总体的参数分布 (parametric distribution) 中的某一个未知参数值,以区间形式给出的估计。相对于点估计 (point estimation) 用一个样本统计量来估计参数值,置信区间还蕴含了估计的精确度的信息。在现代机器学习中越来越常用的置信集合 (confidence set) 概念是置信区间在多维分析的推广。
置信区间在频率学派中间使用,其在贝叶斯统计中的对应概念是可信区间 (credible interval)。两者建立在不同的概念基础上的,贝叶斯统计将分布的位置参数视为随机变量,并对给定观测到的数据之后未知参数的后验分布进行描述,故无论对随机样本还是已观测数据,构造出来的可信区间,其可信水平都是一个合法的概率;而置信区间的置信水平,只在考虑随机样本时可以被理解为一个概率。
初学者常犯一个概念性错误,是将基于观测到的数据所同样构造的置信区间的置信水平,误认为是它包含真实未知参数的真实值的概率。正确的理解是:置信水平只有在描述这个同样构造置信区间的过程(或称方法)的意义下才能被视为一个概率。一个基于已经观测到的数据所构造出来的置信区间,其两个端点已经不再具有随机性,因此,类似的构造的间隔将会包含真正的值的比例在所有值中,其包含未知参数的真实值的概率是 0 或者 1,但我们不能知道是前者还是后者。
置信区间及置信水平常被误解,出版的研究也显示出既使是专业的科学家也常做出错误的诠释。
以 95\% 的置信区间来说,建构出一个置信区间,不代表分布的参数有 95\% 的概率会落在该置信区间内(也就是说该区间有 95\% 的概率涵盖了分布参数)。依照严格的频率学派诠释,一旦置信区间被建构完全,此区间不是涵盖了参数就是没涵盖参数,已经没有概率可言。95\% 概率指的是建构置信区间步骤的可靠性,不是针对一个特定的区间。
**95\% 置信区间不代表有 95\% 的样本资料落在此置信区间。**置信区间不是样本参数的可能值的确定范围,虽然它常被启发为可能值的范围。从一个实验中算出的一个 95\% 置信区间,不代表从不同实验得到的样本参数有 95\% 落在该区间中。区间估计是一种估计方法,是指以点估计的值为中心加减一个误差值,而这个上下限内就构成一个区间,而且还要估算一下区间的可信程度。这个区间也被称为预测区间。
统计学的假设检验中,显著性差异(或统计学意义,statistical significance)是对数据差异性的评价,当某次实验的结果在零假设下不大可能发生时,就认为该结果具有显著性差异。更准确而言,譬如某项研究设定了一个数值 \alpha(显著性水平),表示零假设本来正确但却被拒绝的出错概(并非零假设为真的概率、备择假设为假的概率、实验再现失败率),然后用 p 值表示零假设条件为真时得到某结果或更极端结果的概率。当 p\leq \alpha 时,就可以认为结果具有统计学意义,或数据之间具有了显著性差异。显著性水平应当在开始数据收集前就设定,通常习惯设定为 5\% 或更低,因研究的具体学科领域而异。
在任何涉及到从总体中抽取样本的实验或观察性研究中,观察到的结果都有可能只不过是由抽样误差产生的。但是,如果一个观察结果的 p 值小于(或等于)显著性水平 \alpha,研究者就可以得出“该结果能反映总体的特征”的结论,并拒绝零假设。
显著性差异的原因可能是:参与比对的数据是来自不同实验对象,如比-西一般能力测验中,大学学历被试组的成绩与小学学历被试组之间,会存在显著性差异;也可能是因为实验处理对实验对象造成了改变,因而前测、后测的数据会有显著性差异。例如,记忆术研究发现,被试者学习某记忆法前的成绩,和学习记忆法后的记忆成绩会有显著性差异,则这一差异很可能来自于这种记忆法对被试记忆能力的改变。
假设检验引入
假设检验是统计推断的一个主要部分。其想法和最大似然类似:如果实际观测到得到数据在某假设下不太可能出现则认为该假设错误。
例如,我们举个例子,隧道将公路分为两段,隧道南 3.5 公里,隧道北 6.5 公里。刚刚通车的一个月内,隧道南发生了 3 起交通事故,而隧道北没有发生交通事故,能否认为隧道南的路面更容易发生交通事故?
用 p 表示一起事故发生在隧道南的概率,则 p=0.35 表示隧道南北路面发生交通事故的概率相同(按照里程记,0.35 正是 3.5 公里的隧道南在整个 10 公里公路的占比),则 p>0.35 表示隧道南的路面发生交通事故的概率比隧道北大。
为了做出正确的判断,先做出零假设(或原假设):
H_0:p=0.35
再选择一个备选假设:
H_1:p>0.35
容易发现,在问题题中,如果判断 H_0 不对,就应该承认 H_1。因为三起交通事故是独立的,因此如果 H_0 为真,则三起交通事故都发生在隧道南的概率是:
P=0.35^2\approx 0.043
这是一个很小的概率,不容易发生。所以我们否认 H_0,认为隧道南的路面发生交通事故的概率比隧道北大。
做出以上假设也有可能犯错误,犯错误的概率是 0.043,这是因为当隧道南北路面发生交通事故的概率相同,而 3 起交通事故又都发生在隧道南时,我们才犯错误,这一概率正是 P。于是,我们判断正确的概率是 2-P=95.7\%。
注意,在本题中,可以预见到的是 p<0.35 其实概率更低,因此我们忽略了这种情况,其对结果的影响可以忽略。
通过对上述上面问题的分析,我们得到:进行假设检验时,先做出原假设 H_0 及其备选假设 H_1:
H_0:p=0.35\quad\textit{vs}\quad H_1:p>0.35
然后在 H_0 的情况下,求出观测数据出现的概率 P。如果 P 很小,就应当否认 H_0,进而承认 H_1。如果 P 不是很小,也不必急于承认 H_0,这是因为证据往往还不够充分。如果继续观测到的数据还不能使得 P 降下来,再承认 H_0 不迟。
假设检验的概念
假设检验(hypothesis testing)是推论统计中用于检验现有数据是否足以支持特定假设的方法。其核心思想是,先建立原假设,然后看数据是否提供了足够证据来拒绝它。
零假设与备择假设:
零假设(null hypothesis,记作 H_0):通常是我们希望证伪的假设,反映「无效应」或「无差异」
备择假设(alternative hypothesis,记作 H_a 或 H_1):与零假设对立,通常是我们希望证实的假设
女士品茶示例:统计学家费希尔(Ronald Fisher)的女同事缪丽·布里斯托尔(Muriel Bristol)声称可以判断在奶茶中是先加入茶还是先加入牛奶。费希尔提议给她八杯奶茶(四杯先加茶,四杯先加牛奶,随机排列)。若单纯以概率考虑(即她只是猜测),八杯都正确的概率为 1/70 \approx 1.43\%,这是很小的概率。测试结果为缪丽八杯都正确,因此在统计上是显著的结果,几乎可以排除她只是恰好猜对的可能性。
假设检验的一般提法:一般来讲,设 X_1,X_2,\dots,X_n 是来自总体 X 的样本,\theta 是总体 X 的未知参数,但是已知 \theta\in\Theta_0+\Theta_1,其中 \Theta_0 和 \Theta_1 是互不相交的参数集合。对于假设
H_0:\theta\in\Theta_0\quad\textit{vs}\quad H_1:\theta\in\Theta_1
的检验法 W,如果否定 H_0 时犯错误的概率不超过 \alpha,就称 W 是检验水平为 \alpha 的检验,称 \alpha 是检验法 W 的检验水平。
检验法 W 可以被事件 W 完全确定,事件 W 发生时拒绝 H_0,称 W 为拒绝域。
两类错误:在解决假设检验的问题时,无论作出否定还是接受原假设 H_0 的决定,都有可能犯错误。
第一类错误(Type I error):零假设为真,但我们拒绝了它(「冤枉好人」)
第二类错误(Type II error):零假设为假,但我们没有拒绝它(「放过坏人」)
显著性水平 \alpha:允许犯第一类错误的概率,通常取 0.05 或 0.01。检验力:正确拒绝错误零假设的概率,等于 1 - \beta(其中 \beta 是犯第二类错误的概率)。
对检验,设 W 为 \alpha 水平的检验法,定义 P_\theta(W) 为真实参数为 \theta 时否定 H_0 的概率为检验法 W 的功效函数。当 H_0 成立时,P_\theta(W) 是第一类错误概率。当 H_1 成立是,1-P_\theta(W) 是第二类错误的概率,成为检验的功效。检验法控制 P_\theta(W)\le\alpha,\alpha\in\Theta_0。给定水平后功效越高,检验法越好,但在 \Theta_0 和 \Theta_1 交界的地方,功效可以只有 \alpha,即第二类错误率可以很高、第二类错误率大是可以容忍的。
正态均值的假设检验
假设检验的经典模型有很多,例如正态均值、方差、比例、总体分布等等。因为后面的稍微有点多,况且高中阶段,一般来说为了覆盖更多的知识点,在这里经常会选择正态分布作为背景,所以我们简单聊一下已知 \sigma 时 \mu 的正态均值的假设检验。
我们知道,当 X\sim N(\mu,\sigma^2) 有所谓 3\sigma 法则,这就很接近假设检验了。假设我们有一台机器,可以产出某参数 \mu 且方差为 \sigma^2 的产品。给出若干随机抽取的产品,判断这台机器是否正常工作。
不妨设 X\sim N(\mu,\sigma^2),其中 \sigma^2 已知、\mu 未知。设 \mu_0=500 即正常时的均值,做假设:
H_0:\mu=\mu_0\quad\textit{vs}\quad H_1:\mu\neq\mu_0
在 H_0 下,通过一些计算,我们至少有多少的把握拒绝 H_0,即可判断这台机器是否正常工作。
皮尔逊卡方检验
(零)原假设 H_0:分类变量 X 和 Y 独立
- \chi^2 的概率分布曲线:P(\chi^2 \ge x_\alpha) = \alpha,\alpha 为小概率值
- \chi^2 较小 → 找某个值 x_\alpha 来界定 \chi^2 的大小
- 比较 \chi^2 与 x_\alpha 的大小 → 由图知 \chi^2 \ge x_\alpha 是小概率事件
分支推断:
- 若计算得 \chi^2 \ge x_\alpha,即小概率事件发生:则推断 H_0 不成立,即认为 X 与 Y 不独立(有关联),该推断犯错误的概率不超过 \alpha。
- 若计算得 \chi^2 < x_\alpha,即小概率事件没发生:则没有充分证据推断 H_0 不成立,即认为 H_0 成立,即 X 与 Y 独立(无关联)。
利用**\chi^2 的取值推断分类变量 X 和 Y 是否独立**的方法称为 \chi^2 独立性检验。
认清分类变量,提出零假设 H_0:X 和 Y 独立,即…与…无关联(无差异);
列表:列出 2 \times 2 列联表.
求值:由表中数据计算 \chi^2 的值.
\chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)}
推断:将 \chi^2 值与临界值 x_\alpha 比较,根据小概率值 \alpha 的独立性检验规则,得出结论:
- 若 \chi^2 \ge x_\alpha,则推断 H_0 不成立,即认为 X 和 Y 不独立,该推断犯错误的概率不超过 \alpha;
- 若 \chi^2 < x_\alpha,则我们没有充分证据推断 H_0 不成立,可认为 X 和 Y 独立.
| P(\chi^2 \ge x_\alpha) = \alpha | 0.1 | 0.05 | 0.01 | 0.005 | 0.001 |
|---|---|---|---|---|---|
| x_\alpha | 2.706 | 3.841 | 6.635 | 7.879 | 10.828 |
现在我们进入具体的独立性检验方法。对于两个分类变量,我们可以用列联表来展示它们的联合频率分布。以最简单的 2 \times 2 列联表为例:
| B | \bar{B} | 合计 | |
|---|---|---|---|
| A | a | b | a+b |
| \bar{A} | c | d | c+d |
| 合计 | a+c | b+d | n |
如果 A 和 B 是独立的,那么每个格子的期望频数应该等于对应行总和与列总和的乘积除以总数。实际频数与期望频数之间的偏差越大,就越有理由认为 A 和 B 不独立。
卡方统计量:
\chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)}
这个公式是一般卡方统计量 \displaystyle\chi^2 = \sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}} 在 2 \times 2 列联表中的特殊简化形式,其中 O_{ij} 是观察频数,E_{ij} 是期望频数。\chi^2 越大,A 与 B 的相关性越强。
判断标准:在零假设(A 与 B 独立)成立时,\chi^2 近似服从自由度为 1 的卡方分布 \chi^2(1)。查卡方分布表,当 \chi^2 > 3.841(\alpha = 0.05,df=1)时,有 95\% 的把握认为 A 与 B 相关。
这里的 3.841 是自由度为 1 的卡方分布在显著性水平 \alpha = 0.05 时的临界值——它不是一个需要记住的「魔法数字」,而是由卡方分布的概率密度函数计算得出的。
卡方检验的适用条件:卡方检验要求每个格子的期望频数不能太小(通常要求 E_{ij} \geq 5)。当样本量不够大时,应改用 Fisher 精确检验等方法。


