统计学和数理统计

推论统计学

描述性统计

什么是统计学：

统计学研究如何收集数据、分析数据、从数据做出有依据的推断结果。一言以蔽之，统计学是研究数据的科学。
统计学主要的数学工具是概率论，也广泛使用现代信息技术作为支撑，通过计算机和信息网络获取数据、进行建模、数据分析计算。
统计学是一门科学，不再是数学的一个分支。

描述性统计，统计学的做法分为两种：

描述性统计：从数据样本中计算一些平均值、标准差、最小值、最大值等概括统计量，画直方图、散点图等描述图形。
推断性统计：假定要研究的对象服从某种概率模型，收集数据后把数据用模型解释，并做出有概率意义的结论。

总体、个体和均值：

所要调查的对象全体叫做总体 (population)，总体中每个成员叫做个体。
总体参数是描述总体特性的指标，简称参数。
如果总体中的个体是有限个，称个体总数 N 为总体容量。
总体平均或总体均值是参数，常用 \mu 表示。
总体方差是参数，常记为 \sigma^2。
\sigma 称为总体标准差。

样本与估计：

如果总体只有有限个样本，虽然可以测量所有样本计算总体参数，但可能会消耗过大。
有些总体有无限个个体，比如，对某放射性物质测量固定长度时间内放射出的粒子数，每试验一次就有一个不同结果。
为了得到总体的信息，可以从总体中抽取一个有代表性的个体的集合，称为总体的一个样本，也叫观测数据。样本中个体的个数叫做样本量 (sample size)。
试图用样本的情况去判断总体的情况。注意，“有代表性”是一个不容忽视的要求。
从总体中抽取样本的工作叫做抽样 (sampling)。

设一个样本为 x_1, x_2, \dots, x_n，可计算：

样本均值：\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i
样本方差：s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
s = \sqrt{s^2} 称为样本标准差。

估计：

如果样本确实是有代表性的，则当样本量 n 较大时，从样本计算的样本均值和样本方差可以与相应的总体均值和总体方差很接近。
利用样本计算出的对总体参数的估计值称为估计 (estimator 或 estimate)。
不同的方法可能给出不同的估计，而评判估计优劣的标准也不是唯一的。这方面有一些数学理论。

统计学抽样

在统计学中，抽样（Sampling）是一种推论统计方法，它是指从目标总体（Population，或称为母群）中抽取一部分个体作为样本（Sample），通过观察样本的某一或某些属性，依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断，从而达到对总体的认识。

简单随机抽样：从总体中随机地抽取样本，使得每一个容量为样本都有相同的概率被抽中。每个样本单位被抽中的概率相等，样本的每个单位完全独立，彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时，才采用这种方法。在统计学的不同技术中需要使用随机数，比如在从统计总体中抽取有代表性的样本的时候，或者在将实验动物分配到不同的试验组的过程中，或者在进行蒙特卡罗模拟法计算的时候等等。
等距抽样（也称系统抽样）：将总体中的所有单位按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位。
分层抽样：分层抽样是从统计总体抽取样本方法，将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近，从而提高估计的精度。当总体内的子总体之间的差异较大，对每个子总体分别进行分层抽样调查，会令统计调查结果更为准确。子总体的分层必须为互斥，即每个总体的成员均只能属于一个分层。之后，可对每个子总体进行简单随机抽样或系统抽样。这样可令调查的代表性改善。
整群抽样（又称群集抽样）：将总体中若干个单位合并为组，抽样时直接抽取群，然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框，可简化工作量，缺点是估计的精度较差。

统计学中，重抽样（或重采样，resampling）可指下列几种方法：

使用样本数据的子集（刀切法）或从数据中有放回地随机抽样（自助法），来估计样本统计量（如中位数、方差、百分位数）的精度。

统计学中，刀切法（jackknife）是一种重抽样方法，常用于对统计量的方差和偏差的估计。样本的刀切法估计量是指将样本去除每个元素后重新计算估计量，再将这些估计量取平均值。刀切法是自助法的一个线性近似。“刀切法”的名字由美国数学家约翰·图基提出，意在说明本方法像便携式小刀一样简单但实用，可解决多种统计问题。给定一个大小为 n 的样本，刀切法的估计量可以通过聚合每个大小为 n-1 子样本得出。
在进行显著性检验时交换数据的标签（称为置换检验，或精确检验、随机化检验、重随机化检验）。
使用样本的随机子集来验证模型（称为交叉验证）。交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目的，是用来给模型作训练的新数据，测试模型的性能，以便减少诸如过拟合和选择偏差等问题，并给出模型如何在一个独立的数据集上通用化（即，一个未知的数据集，如实际问题中的数据）。

报告主要结果时必须一并报导效应值……如果测量值的单位在实际面上是有意义的（例如每人每日抽烟的香烟根数），则我们建议采用非标准化的效应值（例如回归系数或平均值差异）而不是标准化的效应值（例如相关系数）。— L. Wilkinson and APA Task Force on Statistical Inference (1999, p. 599)

等距抽样概述，假设从容量为 N（很大）的总体中抽取容量为 n 的样本，我们可以按下列步骤进行系统抽样：

先将总体的 N 个个体编号。
确定分段间隔 k，对编号进行分段。
- 当 \dfrac{N}{n} 是整数时，取 k=\dfrac{N}{n}。
- 当 \dfrac{N}{n} 不是整数时，假设余数为 r（0<r<n），可随机地从 N 个个体中剔除余数 r 个个体，此时取 k=\dfrac{N-r}{n}。
在第一段用简单随机抽样确定第 1 个个体的编号 \ell（\ell\le k）。
将编号为 \ell, \ell+k, \ell+2k, \dots, \ell+(n-1)k 的个体抽出。

我们知道 \ell, \ell + k, \ell + 2k, \dots, \ell + (n - 1)k 是以 \ell 为首项、以 k 为公差的等差数列，设第 n 段抽到的编号为 a_n，则 a_n = \ell + (n - 1)k。故系统抽样也叫等距抽样。

分层抽样概述，当总体是由差异明显的几部分（层）构成时，如果我们用简单随机抽样或系统抽样，有可能抽取的数据全部来自同一部分（层）。为了避免这种情况发生，我们可以按各层所占的比例一层一层抽，即为分层抽样。

分层抽样的步骤：

分层：将总体分成互不交叉的层。
确定抽样比：总体 N，样本容量 n，则抽样比例为 \dfrac{n}{N}。
分层抽样：在各层中按抽样比例 \dfrac{n}{N} 独立地进行简单随机抽样。
汇合样本：将各层抽取的样本合并为最终样本。

例如：第一层 X 有 n 个元素，第二层 Y 有 m 个元素。

容易得出：

\bar a=\dfrac{n\bar X+m\bar Y}{n+m}

对于方差会麻烦一点：

\begin{aligned} D(a)&=E(a^2)-(Ea)^2\\ &=\dfrac{nE(X^2)+mE(Y^2)}{n+m}-\left(\dfrac{nEX+mEY}{n+m}\right)^2\\ &=\dfrac{nD(x)+mD(Y)}{n+m}+\dfrac{nm(EX-EY)^2}{(n+m)^2} \end{aligned}

统计图形

表格与图形概括：

实际数据量可能很大，比如几千、几万、几十万、几百万观测值都是可能的。
直接浏览数据可以获得一些直观印象，但是不能形成总体分布概念。
总体分布包括：变量是离散取值还是连续取值的，如果离散取值，所有可取值集合是什么，每种取值出现多少次，占百分之几。
如果变量是连续取值的，需要了解变量的取值范围，然后在取值范围内分段，对每段的取值个数进行计数并计算百分比，可以画出每段的比例的图形（称为直方图），可以计算简单的样本平均值、标准差等，可以画密度估计图、茎叶图等。

频率分布表：

对离散型总体（如性别、职业等），只要列出样本中每个值的次数和比例。
对于连续型总体，可以适当分组后列出每组的观测个数和百分比。
做出的表格称为频率分布表。

频率直方图：

离散型总体的各不同类型个数可以用条形图表示。
连续型数据分组后可以绘制频数直方图。这与频率分布表类似，只不过分组和频数都体现在图形中。以横坐标表示分组，以纵坐标表示频数，一个组用一个小矩形表示。
纵坐标也可以用频率，这样图形不变，只有纵坐标刻度变化，称为频率直方图。
纵坐标还可以适当伸缩使得小长方形的总面积等于 1，用来作为分布密度估计，称为密度直方图。
下面的图用的是频数。

茎叶图：

茎叶图可以看成水平放置的直方图。
茎叶图可以把所有数据点画到图上。
双茎叶图可以比较两个变量。

统计图形，又称为统计图、统计学图形、图解方法、图解技术、图解分析方法或图解分析技术，是指统计学领域当中用于可视化定量数据的信息图形。有时，人们也把统计图形与各种统计学表格统称为统计图表或统计学图表。

统计学与数据分析过程可大致分为两个组成部分：定量分析方法（Quantitative techniques）和图解分析方法（graphical techniques）。定量分析方法是指那套产生数值型或表格型输出的统计学操作程序；比如，包括假设检验、方差分析、点估计、信赖区间以及最小二乘法回归分析。这些手段以及与此类似的其他技术方法全都颇具价值，属于是经典分析方面的主流。

另一方面，还有一大套我们一般称之为图解分析方法的统计学工具。这些工具包括散点图、直方图、概率图（probability plot）、残差图（residual plot）（residual plot）、箱形图、块图以及双标图。探索性数据分析（Exploratory data analysis，EDA）就密切地依赖于这些手段以及与此类似的其他技术方法。图解分析操作程序不仅仅是在 EDA 背景下才使用的工具；在检验假设、模型选择、统计模型验证（统计模型验证）、估计量（estimator）选择、关系确定、因素效应判定以及离群值检出方面，此类图解分析工具还可以作为最佳捷径，用来深入认识数据集。此外，优质的统计图形还可以作为一种令人信服的沟通手段，用来向他人传达存在于数据之中的基本讯息。

频率分布直方图：横轴表示数据，纵轴表示频率除以组距。数据分组可以是等距的，也可以是不等距的，要根据数据的特点而定。有时为了方便，往往按等距分组，或者除了第一和最后的两段，其他各段按等距分组。因此，图像中矩形的面积就是频率，频率等于频数除以总数。

干叶图（也称茎叶图）是一种显示所有数据的统计图表。在干叶图中，每一个数据分为“干”（茎）和“叶”两个部分。然后，决定干将代表什么，叶将代表什么。在普遍情况，叶包含数字的最后一个数字，干包含所有其他数字。在数量庞大时，数值可以四舍五入到用于叶的特定位置值（例如数百个位置）。舍五入位置值左边的剩余数字用作。

文氏图（Venn diagram），或译温氏图、Venn 图、范恩图、维恩图、维恩图解、范氏图、韦恩图、卞氏图表等，是在集合论（或者类的理论）数学分支中，在不太严格的意义下用以表示集合（或类）的一种图解。它们用于展示在不同的事物群组（集合）之间的数学或逻辑联系，尤其适合用来表示集合（或）类之间的“大致关系”，它也常常被用来帮助推导（或理解推导过程）关于集合运算（或类运算）的一些规律。

在文氏图法中，如果有论域，则以一个矩形框（的内部区域）表示论域；各个集合（或类）就以圆／椭圆（的内部区域）来表示。两个圆／椭圆相交，其相交部分表示两个集合（或类）的公共元素，两个圆／椭圆不相交（相离或相切，而实际上在文氏图中相切是没有什么意义的，因为文氏图是以图形的内部区域来表示的）则说明这两个集合（或类）没有公共元素。

欧拉图可能在外观上同文氏图是一致的。它们之间的区别只在于它们的应用领域中，就是说在被分割的全集的类型中。欧拉图展示对象的特定集合，文氏图的概念更一般的适用于可能的联系。文氏图和欧拉图没有合并的原因可能是，欧拉的版本是早在 100 多年前就出现了的，欧拉已经有了足够多的成就了，而维恩只留下了这么一个图。在欧拉图和文氏图之间的区别只是在想法上，欧拉图要展示特定集合之间的联系，而文氏图要包含所有可能的组合。

参数估计

总体和样本：

如果 X 是从总体中随机抽样得到的个体，则 X 是随机变量，X 的分布就是总体的分布。
如果对总体进行有放回的随机抽样，就得到独立同分布的、和 X 同分布的随机变量 X_1, X_2, \dots, X_n。我们称 X_1, X_2, \dots, X_n 是来自总体 X 的简单随机样本。

如果 X_1, X_2, \dots, X_n 独立同分布，和 X 同分布，就称 X 是总体，称 X_1, X_2, \dots, X_n 是总体 X 的简单随机样本，称观测数据的个数 n 为样本量。

为了简单，也把总体 X 的简单随机样本简称为总体 X 的样本。
在实际问题中得到的总是简单随机样本 X_1, X_2, \dots, X_n 的观测值 x_1, x_2, \dots, x_n。我们也称 x_1, x_2, \dots, x_n 是总体 X 的简单随机样本。

在统计学中，常常不把 X_1, X_2, \dots, X_n 与它们的观测值 x_1, x_2, \dots, x_n 严格区分，这是为了符号使用的方便。

当对数据进行统计分析时，用大写的 X_1, X_2, \dots, X_n；实际计算时更多地用小写的 x_1, x_2, \dots, x_n。
在统计问题中，总体 X 的分布形式往往是已知的。例如重复测量一个物体的重量时，认为总体 X 服从正态分布 N(\mu, \sigma^2)，未知参数是 (\mu, \sigma^2)，问题是根据来自总体 X 的样本 X_1, X_2, \dots, X_n 估计总体参数 (\mu, \sigma^2)。
观测放射性钋放射 \alpha 粒子时，总体 X 服从泊松分布 P(\lambda)，未知参数是 \lambda，问题是根据来自总体 X 的样本 X_1, X_2, \dots, X_n 估计 \lambda。

估计量（统计量）：设 X_1, X_2, \dots, X_n 是总体 X 的简单随机样本，\theta 是总体 X 的未知参数。如果 g(x_1, x_2, \dots, x_n) 是已知函数，就称

\hat{\theta} = g(X_1, X_2, \dots, X_n)

是 \theta 的估计量，简称为估计（estimator）。换句话说，估计或估计量是从观测数据 X_1, X_2, \dots, X_n 能够直接计算的量。计算后得到的值称为估计值。估计量也称为统计量（statistic）。

设 \hat{\theta} 是总体参数 \theta 的估计，作为随机变量 X_1, X_2, \dots, X_n 的函数，估计量 \hat{\theta} 也是随机变量。估计量是样本的函数。用估计量 \hat{\theta} 去估计总体参数 \theta，我们希望 \hat{\theta} 能够尽可能与 \theta 接近，但由于随机性影响误差是不可避免的。

均值的估计：设总体均值 \mu = E[X] 存在，X_1, X_2, \dots, X_n 是总体 X 的简单随机样本。均值 \mu 的估计定义为

\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i

由于 \bar{X}_n 是从样本计算出来的，所以是样本均值。样本均值 \bar{X}_n 有如下的性质：

\bar{X}_n 是 \mu 的无偏估计。这是因为 E[\bar{X}_n] = \mu。
\bar{X}_n 是 \mu 的强相合估计，从而是相合估计。这是因为从强大数律得到

\lim_{n \to \infty} \bar{X}_n = \mu

方差的估计：

总体方差 \sigma^2 = \text{Var}(X) 的点估计由

S^2 = \frac{1}{n - 1} \sum_{j=1}^n (X_j - \bar{X}_n)^2

定义。由于 S^2 是从样本计算出来的，所以是样本方差。

标准差 \sigma 的估计：

由于 S^2 是 \sigma^2 的估计，所以定义标准差 \sigma 的估计为

S = \sqrt{S^2} = \sqrt{\frac{1}{n - 1} \sum_{j=1}^n (X_j - \bar{X}_n)^2}
S 是样本标准差。由于 S \to \sigma，成立，所以 S 是 \sigma 的强相合估计。
但是 S 一般不是 \sigma 的无偏估计。实际上用 Jensen 不等式（或柯西-施瓦茨不等式）得到

E[S] = E[1 \cdot S] \leq \sqrt{E[1] \cdot E[S^2]} = \sigma

等号成立时有不全为零的常数 a, b 使得 P(aS + b = 0) = 1，于是 S = b/a。所以只要 S 等于常数的概率小于 1，则 E[S] < \sigma。

样本均值、方差、标准差的理论结果：设 X_1, X_2, \dots, X_n 是总体 X 的简单随机样本，\mu = E[X]，\sigma^2 = \text{Var}(X)。

样本均值 \bar{X}_n 是总体均值 \mu 的强相合无偏估计。
样本方差 S^2 是总体方差 \sigma^2 的强相合无偏估计。
样本标准差 S 是总体标准差 \sigma 的强相合估计。

在统计学中，自由度（degree of freedom，df）是指当以样本的统计量来估计总体的参数时，样本中独立或能自由变化的数据的个数。

直观理解：

若存在两个变量 a，b，而 a+b=6，那么自由度为 1。因为只有 a 能自由变化，b 会被 a 的值所限制。
估计总体的平均数 \mu 时，自由度为 n（n 个数都相互独立）。
估计总体的方差 \sigma^2 时，自由度为 n-1。因为用了样本平均数 \bar{x} 这个约束条件，有一个数据不再自由（样本的均值，也是随机变量，是随着样本的变化可能改变的）。

回归中的自由度：

一元线性回归中，残差平方和的自由度为 n-2（估计了两个参数 \beta_0, \beta_1）
多元线性回归中，自由度为 n-p-1（p 个自变量加一个截距）

\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^{n} e_i^2 = \frac{Q(\hat a,\hat b)}{n-2}

分母是 n-2 而不是 n（因为估计了两个参数 \beta_0, \beta_1，损失了两个自由度——关于自由度的详细讨论见后文）。

在实际应用中，还可以通过残差图（将残差 e_i 对 x_i 或 \hat{Y}_i 作散点图）来检查模型假设是否成立：如果残差随机地散布在零附近，没有明显的趋势或模式，说明线性模型是合适的；如果残差呈现出系统性的弯曲或喇叭口形状，则可能需要考虑非线性模型或异方差问题。

题型三计算残差及残差图分析拟合效果

总结：

残差：对于响应变量 Y，通过观测得到的数据称为观测值，通过经验回归方程得到的 \hat{y} 称为预测值，观测值减去预测值称为残差．
残差分析：残差是随机误差的估计结果，通过对残差的分析可以判断模型刻画数据的效果，以及判断原始数据中是否存在可疑数据等，这方面工作称为残差分析．
利用残差图判断模型拟合效果的方法：残差点比较均匀地落在水平的带状区域内，说明选用的模型比较合适．

决定系数 R^2

决定系数 R^2 也可以用来比较两个模型的拟合效果，R^2 的计算公式为

R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2}.

在 R^2 表达式中，\sum_{i=1}^n (y_i - \bar{y})^2 与经验回归方程无关，残差平方和 \sum_{i=1}^n (y_i - \hat{y}_i)^2 与经验回归方程有关。

因此 R^2 越大，表示残差平方和越小，即模型拟合效果越好；R^2 越小，表示残差平方和越大，即模型的拟合效果越差。

一元线性回归模型

为了统计分析的方便，我们认为成对数据 (x_j,y_j) 满足模型

Y_j=a+bx_j+\varepsilon_j,\quad j=1,2,\dots,n

其中的 a,b 是未知常数，\{\varepsilon_j\} 是独立同分布的随机变量，服从正态分布 N(0,\sigma^2)，详见下面（正态假设），其中的 \sigma^2 是未知正数，代表了随机误差的强弱，\sigma^2 越大，说明随机误差越强。

这个模型便是一元线性回归模型，其中 a,b 分别是直线 y=a+bx 的截距和斜率，称为回归参数。我们称 x_j 是设计变量，或者输入变量，它表示得到 Y_j 时的输入条件。我们将 x_j 看作常量，不做随机变量处理。Y_j 是观测变量，它是输入条件 x_j 后得到的观测结果，我们称 (x_j,y_j) 是来自一元线性回归模型的样本。

注意这里从「拟合」到「模型」的转变：高中阶段把回归看作「找一条最合适的直线」，而概率模型则认为数据背后存在一个真实的线性关系 \beta_0 + \beta_1 x，我们观测到的 Y_i 是这个真实值加上随机扰动 \varepsilon_i 的结果。最小二乘法给出的 \hat{\beta}_0, \hat{\beta}_1 是对真实参数的估计。

为了保证最小二乘估计的良好性质，通常需要以下假设（称为经典假设）：

线性性：Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i
零均值：E(\varepsilon_i) = 0
同方差性：\text{Var}(\varepsilon_i) = \sigma^2（常数）
无自相关：\text{Cov}(\varepsilon_i, \varepsilon_j) = 0, \; i \neq j
非随机设计：x_i 是非随机的，且 S_{xx} > 0

若进一步假设 \varepsilon_i \sim N(0, \sigma^2)，则称为经典正态线性回归模型。

在上述假设下，最小二乘估计量具有以下优良性质：

无偏性：E(\hat{\beta}_1) = \beta_1，即估计量的期望等于真值
方差：\text{Var}(\hat{\beta}_1) = \dfrac{\sigma^2}{S_{xx}}，其中 S_{xx} = \sum(x_i - \bar{x})^2

Gauss-Markov 定理：在经典假设下，最小二乘估计量 \hat{\beta}_0, \hat{\beta}_1 是最佳线性无偏估计量（Best Linear Unbiased Estimator，简称 BLUE）。

即：在所有线性无偏估计量中，最小二乘估计量的方差最小。这个定理告诉我们，不需要正态假设，只要满足基本条件，最小二乘法就是「最优的」线性无偏估计方法。换句话说，高中学的回归公式不是随意选的——它在数学上被证明是「最好的」。

一元非线性回归

并非所有变量之间的关系都是线性的。对于某些非线性函数，可以通过适当的变量变换转化为线性形式，再用线性回归的方法求解：

原始模型	变换方法	线性化形式	适用场景
y = \alpha + \beta \log x	令 t = \log x	y = \alpha + \beta t	对数函数关系
y = ae^{bx}	令 Y = \ln y	Y = \ln a + bx	指数增长 / 衰减
y = ax^b	令 Y = \ln y, X = \ln x	Y = \ln a + bX	幂函数关系
y = \dfrac{1}{a+bx}	令 Y = 1/y	Y = a + bx	反比例关系
y = \dfrac{x}{ax+b}	令 Y = x/y	Y = ax + b	分式线性

变换法的注意事项：变换后再做最小二乘，最小化的目标函数与直接在原始模型上做最小二乘不同。例如对 y = ae^{bx}，变换法最小化的是 \sum(\ln y_i - \ln a - bx_i)^2，而非 \sum(y_i - ae^{bx_i})^2。这会改变误差结构，解释时要谨慎。

广义线性模型（Generalized Linear Model, GLM）将经典线性模型推广到非正态响应变量，由三部分组成。

随机成分：Y_i 服从指数族分布（正态、二项、泊松、Gamma 等）
系统成分：线性预测子 \eta_i = \mathbf{x}_i^\mathsf{T}\boldsymbol{\beta}
连接函数：g(\mu_i) = \eta_i，其中 \mu_i = E(Y_i)

分布	典型连接函数	模型名称	应用场景
正态 N(\mu, \sigma^2)	恒等：g(\mu)=\mu	线性回归	连续响应
二项 B(n,p)	Logit：g(p)=\ln\frac{p}{1-p}	Logistic 回归	分类问题
泊松 P(\lambda)	对数：g(\lambda)=\ln\lambda	泊松回归	计数数据

逻辑回归（Logistic Regression，逻辑斯蒂回归）是最常用的 GLM 特例。对于二分类问题 Y_i \in \{0,1\}：

\ln\frac{p_i}{1-p_i} = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}

等价于 p_i = \dfrac{1}{1+e^{-\mathbf{x}_i^\mathsf{T}\boldsymbol{\beta}}}，其中 \sigma(z) = \dfrac{1}{1+e^{-z}} 是 Sigmoid 函数。

假设检验

置信区间

在统计学中，一个概率样本的置信区间 (confidence interval, CI)，是对产生这个样本的总体的参数分布 (parametric distribution) 中的某一个未知参数值，以区间形式给出的估计。相对于点估计 (point estimation) 用一个样本统计量来估计参数值，置信区间还蕴含了估计的精确度的信息。在现代机器学习中越来越常用的置信集合 (confidence set) 概念是置信区间在多维分析的推广。

置信区间在频率学派中间使用，其在贝叶斯统计中的对应概念是可信区间 (credible interval)。两者建立在不同的概念基础上的，贝叶斯统计将分布的位置参数视为随机变量，并对给定观测到的数据之后未知参数的后验分布进行描述，故无论对随机样本还是已观测数据，构造出来的可信区间，其可信水平都是一个合法的概率；而置信区间的置信水平，只在考虑随机样本时可以被理解为一个概率。

初学者常犯一个概念性错误，是将基于观测到的数据所同样构造的置信区间的置信水平，误认为是它包含真实未知参数的真实值的概率。正确的理解是：置信水平只有在描述这个同样构造置信区间的过程（或称方法）的意义下才能被视为一个概率。一个基于已经观测到的数据所构造出来的置信区间，其两个端点已经不再具有随机性，因此，类似的构造的间隔将会包含真正的值的比例在所有值中，其包含未知参数的真实值的概率是 0 或者 1，但我们不能知道是前者还是后者。

置信区间及置信水平常被误解，出版的研究也显示出既使是专业的科学家也常做出错误的诠释。

以 95\% 的置信区间来说，建构出一个置信区间，不代表分布的参数有 95\% 的概率会落在该置信区间内（也就是说该区间有 95\% 的概率涵盖了分布参数）。依照严格的频率学派诠释，一旦置信区间被建构完全，此区间不是涵盖了参数就是没涵盖参数，已经没有概率可言。95\% 概率指的是建构置信区间步骤的可靠性，不是针对一个特定的区间。

**95\% 置信区间不代表有 95\% 的样本资料落在此置信区间。**置信区间不是样本参数的可能值的确定范围，虽然它常被启发为可能值的范围。从一个实验中算出的一个 95\% 置信区间，不代表从不同实验得到的样本参数有 95\% 落在该区间中。区间估计是一种估计方法，是指以点估计的值为中心加减一个误差值，而这个上下限内就构成一个区间，而且还要估算一下区间的可信程度。这个区间也被称为预测区间。

统计学的假设检验中，显著性差异（或统计学意义，statistical significance）是对数据差异性的评价，当某次实验的结果在零假设下不大可能发生时，就认为该结果具有显著性差异。更准确而言，譬如某项研究设定了一个数值 \alpha（显著性水平），表示零假设本来正确但却被拒绝的出错概（并非零假设为真的概率、备择假设为假的概率、实验再现失败率），然后用 p 值表示零假设条件为真时得到某结果或更极端结果的概率。当 p\leq \alpha 时，就可以认为结果具有统计学意义，或数据之间具有了显著性差异。显著性水平应当在开始数据收集前就设定，通常习惯设定为 5\% 或更低，因研究的具体学科领域而异。

在任何涉及到从总体中抽取样本的实验或观察性研究中，观察到的结果都有可能只不过是由抽样误差产生的。但是，如果一个观察结果的 p 值小于（或等于）显著性水平 \alpha，研究者就可以得出“该结果能反映总体的特征”的结论，并拒绝零假设。

显著性差异的原因可能是：参与比对的数据是来自不同实验对象，如比－西一般能力测验中，大学学历被试组的成绩与小学学历被试组之间，会存在显著性差异；也可能是因为实验处理对实验对象造成了改变，因而前测、后测的数据会有显著性差异。例如，记忆术研究发现，被试者学习某记忆法前的成绩，和学习记忆法后的记忆成绩会有显著性差异，则这一差异很可能来自于这种记忆法对被试记忆能力的改变。

假设检验引入

假设检验是统计推断的一个主要部分。其想法和最大似然类似：如果实际观测到得到数据在某假设下不太可能出现则认为该假设错误。

例如，我们举个例子，隧道将公路分为两段，隧道南 3.5 公里，隧道北 6.5 公里。刚刚通车的一个月内，隧道南发生了 3 起交通事故，而隧道北没有发生交通事故，能否认为隧道南的路面更容易发生交通事故？

用 p 表示一起事故发生在隧道南的概率，则 p=0.35 表示隧道南北路面发生交通事故的概率相同（按照里程记，0.35 正是 3.5 公里的隧道南在整个 10 公里公路的占比），则 p>0.35 表示隧道南的路面发生交通事故的概率比隧道北大。

为了做出正确的判断，先做出零假设（或原假设）：

H_0:p=0.35

再选择一个备选假设：

H_1:p>0.35

容易发现，在问题题中，如果判断 H_0 不对，就应该承认 H_1。因为三起交通事故是独立的，因此如果 H_0 为真，则三起交通事故都发生在隧道南的概率是：

P=0.35^2\approx 0.043

这是一个很小的概率，不容易发生。所以我们否认 H_0，认为隧道南的路面发生交通事故的概率比隧道北大。

做出以上假设也有可能犯错误，犯错误的概率是 0.043，这是因为当隧道南北路面发生交通事故的概率相同，而 3 起交通事故又都发生在隧道南时，我们才犯错误，这一概率正是 P。于是，我们判断正确的概率是 2-P=95.7\%。

注意，在本题中，可以预见到的是 p<0.35 其实概率更低，因此我们忽略了这种情况，其对结果的影响可以忽略。

通过对上述上面问题的分析，我们得到：进行假设检验时，先做出原假设 H_0 及其备选假设 H_1：

H_0:p=0.35\quad\textit{vs}\quad H_1:p>0.35

然后在 H_0 的情况下，求出观测数据出现的概率 P。如果 P 很小，就应当否认 H_0，进而承认 H_1。如果 P 不是很小，也不必急于承认 H_0，这是因为证据往往还不够充分。如果继续观测到的数据还不能使得 P 降下来，再承认 H_0 不迟。

假设检验的概念

假设检验（hypothesis testing）是推论统计中用于检验现有数据是否足以支持特定假设的方法。其核心思想是，先建立原假设，然后看数据是否提供了足够证据来拒绝它。

零假设与备择假设：

零假设（null hypothesis，记作 H_0）：通常是我们希望证伪的假设，反映「无效应」或「无差异」
备择假设（alternative hypothesis，记作 H_a 或 H_1）：与零假设对立，通常是我们希望证实的假设

女士品茶示例：统计学家费希尔（Ronald Fisher）的女同事缪丽·布里斯托尔（Muriel Bristol）声称可以判断在奶茶中是先加入茶还是先加入牛奶。费希尔提议给她八杯奶茶（四杯先加茶，四杯先加牛奶，随机排列）。若单纯以概率考虑（即她只是猜测），八杯都正确的概率为 1/70 \approx 1.43\%，这是很小的概率。测试结果为缪丽八杯都正确，因此在统计上是显著的结果，几乎可以排除她只是恰好猜对的可能性。

假设检验的一般提法：一般来讲，设 X_1,X_2,\dots,X_n 是来自总体 X 的样本，\theta 是总体 X 的未知参数，但是已知 \theta\in\Theta_0+\Theta_1，其中 \Theta_0 和 \Theta_1 是互不相交的参数集合。对于假设

H_0:\theta\in\Theta_0\quad\textit{vs}\quad H_1:\theta\in\Theta_1

的检验法 W，如果否定 H_0 时犯错误的概率不超过 \alpha，就称 W 是检验水平为 \alpha 的检验，称 \alpha 是检验法 W 的检验水平。

检验法 W 可以被事件 W 完全确定，事件 W 发生时拒绝 H_0，称 W 为拒绝域。

两类错误：在解决假设检验的问题时，无论作出否定还是接受原假设 H_0 的决定，都有可能犯错误。

第一类错误（Type I error）：零假设为真，但我们拒绝了它（「冤枉好人」）
第二类错误（Type II error）：零假设为假，但我们没有拒绝它（「放过坏人」）

显著性水平 \alpha：允许犯第一类错误的概率，通常取 0.05 或 0.01。检验力：正确拒绝错误零假设的概率，等于 1 - \beta（其中 \beta 是犯第二类错误的概率）。

对检验，设 W 为 \alpha 水平的检验法，定义 P_\theta(W) 为真实参数为 \theta 时否定 H_0 的概率为检验法 W 的功效函数。当 H_0 成立时，P_\theta(W) 是第一类错误概率。当 H_1 成立是，1-P_\theta(W) 是第二类错误的概率，成为检验的功效。检验法控制 P_\theta(W)\le\alpha,\alpha\in\Theta_0。给定水平后功效越高，检验法越好，但在 \Theta_0 和 \Theta_1 交界的地方，功效可以只有 \alpha，即第二类错误率可以很高、第二类错误率大是可以容忍的。

正态均值的假设检验

假设检验的经典模型有很多，例如正态均值、方差、比例、总体分布等等。因为后面的稍微有点多，况且高中阶段，一般来说为了覆盖更多的知识点，在这里经常会选择正态分布作为背景，所以我们简单聊一下已知 \sigma 时 \mu 的正态均值的假设检验。

我们知道，当 X\sim N(\mu,\sigma^2) 有所谓 3\sigma 法则，这就很接近假设检验了。假设我们有一台机器，可以产出某参数 \mu 且方差为 \sigma^2 的产品。给出若干随机抽取的产品，判断这台机器是否正常工作。

不妨设 X\sim N(\mu,\sigma^2)，其中 \sigma^2 已知、\mu 未知。设 \mu_0=500 即正常时的均值，做假设：

H_0:\mu=\mu_0\quad\textit{vs}\quad H_1:\mu\neq\mu_0

在 H_0 下，通过一些计算，我们至少有多少的把握拒绝 H_0，即可判断这台机器是否正常工作。

皮尔逊卡方检验

（零）原假设 H_0：分类变量 X 和 Y 独立

\chi^2 的概率分布曲线：P(\chi^2 \ge x_\alpha) = \alpha，\alpha 为小概率值
\chi^2 较小 → 找某个值 x_\alpha 来界定 \chi^2 的大小
比较 \chi^2 与 x_\alpha 的大小 → 由图知 \chi^2 \ge x_\alpha 是小概率事件

分支推断：

若计算得 \chi^2 \ge x_\alpha，即小概率事件发生：则推断 H_0 不成立，即认为 X 与 Y 不独立（有关联），该推断犯错误的概率不超过 \alpha。
若计算得 \chi^2 < x_\alpha，即小概率事件没发生：则没有充分证据推断 H_0 不成立，即认为 H_0 成立，即 X 与 Y 独立（无关联）。

利用**\chi^2 的取值推断分类变量 X 和 Y 是否独立**的方法称为 \chi^2 独立性检验。

认清分类变量，提出零假设 H_0：X 和 Y 独立，即…与…无关联（无差异）；
列表：列出 2 \times 2 列联表.
求值：由表中数据计算 \chi^2 的值.

\chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)}
推断：将 \chi^2 值与临界值 x_\alpha 比较，根据小概率值 \alpha 的独立性检验规则，得出结论：

若 \chi^2 \ge x_\alpha，则推断 H_0 不成立，即认为 X 和 Y 不独立，该推断犯错误的概率不超过 \alpha；
若 \chi^2 < x_\alpha，则我们没有充分证据推断 H_0 不成立，可认为 X 和 Y 独立.

P(\chi^2 \ge x_\alpha) = \alpha	0.1	0.05	0.01	0.005	0.001
x_\alpha	2.706	3.841	6.635	7.879	10.828

现在我们进入具体的独立性检验方法。对于两个分类变量，我们可以用列联表来展示它们的联合频率分布。以最简单的 2 \times 2 列联表为例：

	B	\bar{B}	合计
A	a	b	a+b
\bar{A}	c	d	c+d
合计	a+c	b+d	n

如果 A 和 B 是独立的，那么每个格子的期望频数应该等于对应行总和与列总和的乘积除以总数。实际频数与期望频数之间的偏差越大，就越有理由认为 A 和 B 不独立。

卡方统计量：

\chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)}

这个公式是一般卡方统计量 \displaystyle\chi^2 = \sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}} 在 2 \times 2 列联表中的特殊简化形式，其中 O_{ij} 是观察频数，E_{ij} 是期望频数。\chi^2 越大，A 与 B 的相关性越强。

判断标准：在零假设（A 与 B 独立）成立时，\chi^2 近似服从自由度为 1 的卡方分布 \chi^2(1)。查卡方分布表，当 \chi^2 > 3.841（\alpha = 0.05，df=1）时，有 95\% 的把握认为 A 与 B 相关。

这里的 3.841 是自由度为 1 的卡方分布在显著性水平 \alpha = 0.05 时的临界值——它不是一个需要记住的「魔法数字」，而是由卡方分布的概率密度函数计算得出的。

卡方检验的适用条件：卡方检验要求每个格子的期望频数不能太小（通常要求 E_{ij} \geq 5）。当样本量不够大时，应改用 Fisher 精确检验等方法。

RainPPR, Bot

统计学和数理统计

推论统计学

描述性统计

统计学抽样

统计图形

参数估计

相关分析

皮尔逊相关系数

相关系数的理解

相关系数的计算

原始和标准分数

回归分析

最小二乘估计

残差分析