随机变量及其分布
随机变量及其分类
随机变量的定义
随机变量是用来表示随机试验结果的变量,通常用大写字母 X,Y,Z 或小写希腊字母 \xi,\eta,\zeta 表示。随机函数是一个特殊的实函数,对于任意 e\in S,都有唯一一个对应 X(e),如图。
随机变量实质上是样本空间上的函数,可作为因变量,满足其值不大于某数的状况都是事件。我们称随机变量这个函数的值域为随机变量的取值范围,或值域。
随机变量在不同的条件下由于偶然因素影响,其可能取各种随机变量不同的值,具有不确定性和随机性,但这些取值落在某个范围的概率是一定的,此种变量称为随机变量。随机变量可以是离散型的,也可以是连续型的。如分析测试中的测定值就是一个以概率取值的随机变量,被测定量的取值可能在某一范围内随机变化,具体取什么值在测定之前是无法确定的,但测定的结果是确定的,多次重复测定所得到的测定值具有统计规律性。随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。
随机变量按其值域(根据定义,随机变量是一个函数)是否可数分为离散型和连续型两种。
指示随机变量
在数学中,示性函数(Indicator Function)和指示随机变量(Indicator Random Variable)是两个密切相关但层次不同的概念:
示性函数(确定性函数):对于一个固定的集合 A \subseteq \Omega,示性函数 \mathbb{1}_A(\omega) 是一个普通函数,对每个 \omega \in \Omega,它输出确定的 0 或 1。它不涉及概率,只是集合的特征标签。
指示随机变量(随机变量):当样本空间 \Omega 上定义了概率测度 P 后,示性函数 \mathbb{1}_A 就成为一个随机变量——因为 \omega 是随机试验的结果,\mathbb{1}_A(\omega) 的值也随之随机。此时它的期望 E[\mathbb{1}_A] = P(A) 才有意义。
简单说:示性函数是“静态的集合特征函数”;指示随机变量是“动态的随机指示器”。在概率论语境下,两者常混用,但严格来说,“随机变量”这一名称强调了其所在的概率空间结构。
指示随机变量 I_A(也记作 \mathbb{1}_A)是一个只取 0 或 1 的二元变量,它像一个“探测器”,只报告事件 A 是否发生:
I_A(\omega)= \begin{cases} 1, & \omega \in A \quad \text{(事件发生)} \\ 0, & \omega \notin A \quad \text{(事件未发生)} \end{cases}
命名含义:Indicator(指示器)——指示事件 A 的真/假状态,将逻辑命题转化为数值信号。指示变量最强大的特性是其期望与事件概率的直接等价:
E[I_A] = 1 \cdot P(A) + 0 \cdot P(A^c) = P(A)
认知跃迁:这个公式建立了一座桥梁——将求概率转化为求期望,反之亦然。它是理解指示变量法的基石。
方差(补充性质):由于 I_A^2 = I_A,方差为
\text{Var}(I_A) = E[I_A^2] - (E[I_A])^2 = P(A) - P(A)^2 = P(A)(1-P(A))
这正是 Bernoulli 分布的方差公式。
方法本质:将一个复杂的随机变量 X 分解为多个指示变量之和,然后利用期望的线性性质求和。
标准算法(三步法):
分解:将 X 写成 n 个指示变量的和
X = I_1 + I_2 + \dots + I_n
其中 I_i = 1 表示第 i 个“子事件”发生。
线性化:利用 E[X+Y] = E[X] + E[Y](永远成立,无需独立性)
E[X] = E[I_1] + E[I_2] + \dots + E[I_n]
概率化:将每个 E[I_i] 替换为 P(A_i)
E[X] = P(A_1) + P(A_2) + \dots + P(A_n)
期望的线性性质不要求变量独立。即使 I_1, I_2, \dots, I_n 之间存在复杂的依赖关系,只要你能分别求出每个 P(A_i),就能直接相加得到总期望。
帽子匹配问题(Derangement Problem):n 个人随机交换帽子,求恰好拿回自己帽子的人数的期望 E[X]。**暴力法(分布列路径)**需要计算 P(X=k) = \dfrac{\binom{n}{k} D_{n-k}}{n!}(D_m 为 m 个元素的错排数),然后求和 E[X] = \sum_{k=0}^n k \cdot P(X=k)。错排数的计算复杂,组合爆炸。
- 分解:设 I_i = \begin{cases}1, & \text{第 } i \text{ 人拿回自己帽子} \\ 0, & \text{否则}\end{cases},则 X = I_1 + I_2 + \dots + I_n。
- 线性化:E[X] = E[I_1] + \dots + E[I_n]。
- 概率化:对于任意 i,P(I_i=1) = \dfrac{1}{n}(第 i 人的帽子随机分给 n 个人中的一位)。
- 求和:E[X] = n \cdot \dfrac{1}{n} = \mathbf{1}。
结论:无论多少人,平均拿回自己帽子的人数永远是 1。仅用 4 行完成暴利法无法完成的计算。
羽毛球发球权问题(来自前一节):甲乙比赛,第一回合甲发球,每回合胜者发下一球。已知每人自己发球时胜率均为 2/3。求前 4 回合甲发球次数 X 的期望。**传统法(路径枚举)**枚举 2^3=8 种发球权转移路径,计算每种路径的概率,列出 X 的分布列,最后加权求和。过程繁琐,且 n 大时不可行。
- 分解:X = I_1 + I_2 + I_3 + I_4,其中 I_i = \begin{cases}1, & \text{第 } i \text{ 回合甲发球} \\ 0, & \text{否则}\end{cases}
- 线性化:E[X] = E[I_1] + E[I_2] + E[I_3] + E[I_4]
- 概率化:
- E[I_1] = P(S_1=\text{甲}) = 1(初始条件)
- E[I_2] = P(S_2=\text{甲}) = P(\text{甲赢 1 局}) = \dfrac{2}{3}
- E[I_3] = P(S_3=\text{甲}) = P(S_2=\text{甲})\cdot\dfrac{2}{3} + P(S_2=\text{乙})\cdot\dfrac{1}{3} = \dfrac{5}{9}
- E[I_4] = P(S_4=\text{甲}) = \dfrac{14}{27}(递推计算)
- 求和:E[X] = 1 + \dfrac{2}{3} + \dfrac{5}{9} + \dfrac{14}{27} = \dfrac{74}{27}
优势:无需计算完整分布列,直接锁定期望,且极易推广至 n 回合(利用马尔可夫链递推)。
| 维度 | 传统分布列法 | 指示变量法 |
|---|---|---|
| 核心思想 | 整体 → 分类 → 汇总(枚举) | 局部 → 叠加 → 整体(分解) |
| 关键操作 | 计算所有互斥情况的概率 | 定义 n 个恰当的指示变量 I_i |
| 计算复杂度 | 指数级 \mathcal{O}(2^n)(组合爆炸) | 线性级 \mathcal{O}(n) |
| 独立性要求 | 通常需考虑依赖关系 | 完全不需要,线性性恒成立 |
| 输出结果 | 完整分布(所有 P(X=k)) | 仅期望 E[X] |
| 适用场景 | 需求方差、中位数、完整分布 | 仅需求平均、期望个数 |
何时使用指示变量法?
- 题目关键词:平均次数、期望个数、预计数量
- 随机变量天然可分解为多个二元状态之和(如:发生次数、命中数、成功次数)
- 直接求分布涉及复杂组合计数(如错排、配对、覆盖问题)
何时使用传统法?
- 需要知道 X 的完整分布(方差、分位数)
- 指示变量定义困难,或 P(A_i) 不易计算
传统分布列法依赖穷举与组合计数,本质是算力的比拼——你需要列出所有可能性并验证它们互斥且完备。
指示变量法依赖分解与线性叠加,本质是脑力的飞跃——你只需要回答一个简单问题:每个子事件发生的概率是多少? 无论这些子事件如何纠缠,期望的和永远等于和的期望。
💡 导师寄语:当你看到题目问平均、期望时,第一反应不应是怎么列分布表,而应是:我能否把这个总量拆成若干个 0-1 开关的和?
一旦你掌握了这种局部叠加思维,你就在概率认知上实现了从算力到脑力的质变。
随机变量的独立性
随机变量的独立性,就是关于随机变量的事件的独立性。
定义:
若随机变量 X, Y 满足对任意的 x, y \in \mathbb{R} 都有
P( X \leq x,\, Y \leq y ) = P( X \leq x )\,P( Y \leq y )
则称随机变量 X, Y 相互独立。
中学课本中对随机变量独立性的定义常用形如 P(X = a) 的概率描述,但这主要适用于离散型随机变量。对于连续型随机变量,取特定值的概率恒为 0,因此在更一般的情形下借助分布函数定义才是更加明智的选择。
性质:
- 若随机变量 X, Y 相互独立,则对于任意函数 f, g,随机变量 f(X) 与 g(Y) 也相互独立。
- 有时我们会研究相互独立的随机变量 X, Y 的某个二元函数 f(X, Y)(例如 XY^2 的分布。
- 尽管 X 与 Y 独立,但不能想当然地认为对 Y 的某一取值 y,f(X, y) 与 f(X, Y) 服从同样的分布。这实际上混淆了条件分布与无条件分布:独立性只表明联合分布可分解为边缘分布的乘积,并不意味着将随机变量直接替换为常数后函数的分布保持不变。
离散型随机变量
如果随机变量 X 的取值是有限的或者是可数无穷尽的值:X(S)=\{x_1, x_2, \cdots, x_n\} 则称 X 为离散随机变量。
设 X 为离散型随机变量,其所有可能的取值为 x_1, x_2, \cdots,则我们可以用一系列形如 P\{ X = x_i \} = p_i 的等式来描述 X,这就是概率分布列。
| X | x_1 | x_2 | \cdots | x_n |
|---|---|---|---|---|
| P | p_1 | p_2 | \cdots | p_n |
随机向量及其分布
需要研究多个随机变量的情况,如果二维随机向量 \xi = (X, Y ) 可能取的值只有有限个或可数个,则称 \xi 为离散型随机向量。注意二维随机向量取值在平面(二维空间)中。
二维随机变量 \xi = (X, Y ) 的概率分布:
P[(X,Y)=(x_i,y_j)]=p_{ij}
也称为 (X, Y ) 的联合分布。二维随机变量 (X, Y ) 的分布也称为联合分布,分量 X 的概率分布称为 (X, Y ) 的关于 X 的边缘分布;分量 Y 的概率分布称为 (X, Y ) 的关于 Y 的边缘分布。联合分布决定边缘分布。
P(X=x_i)=\sum_jx_{ij}
P(Y=y_j)\sum_ix_{ij}
再深入,涉及到一些复杂的东西了,这里不做展开,例如其密度、分布等,较为复杂。
离散的概率分布
概率分布简称分布,广义地,它指:随机变量的概率性质——当我们说概率空间中的两个随机变量 X 和 Y 具有同样的分布时,我们是无法用概率 P 来区别他们的。
但是,不能认为同分布的随机变量是相同的随机变量。事实上即使 X 与 Y 同分布,也可以没有任何点 \omega 使得 X(\omega)=Y(\omega)。在这个意义下,可以把随机变量分类,每一类称作一个分布,其中的所有随机变量都同分布。
狭义地,它是指随机变量的概率分布函数:对于随机变量 X,称函数 F(x) 为随机变量 X 的 分布函数。记作 X \sim F(x)。
F(x) = P( X \leq x )
分布函数具有以下性质:
右连续性:F(x) = F(x + 0)。
单调性:在 \mathbb{R} 上单调递增(非严格)。
F(-\infty) = 0,F(+\infty) = 1。
同时我们可以证明,满足上述要求的函数都是某个随机变量的分布函数。因此,分布函数与随机变量之间一一对应。具有相同分布函数的随机变量一定是同分布的,因此可以用分布函数来描述一个分布,但更常用的描述手段是概率密度函数。
用更简要的语言来说,同分布是一种等价关系,每一个等价类就是一个分布。需注意的是,通常谈到的离散分布、均匀分布、伯努利分布、正态分布、泊松分布等,都是指各种类型的分布,而不能视作一个分布。
分布函数的值域是离散的,比如只取整数值的随机变量就是属于离散分布的。离散型均匀分布是一种离散型概率分布,其所有可能的观察值数量为有限整数,且每一个观察值的出现概率皆相同。离散型均匀分布的一个例子是掷公平骰子,其可能的观察值为 1,2,3,4,5,6,而每一个数字的出现概率都是 1/6。但若同时丢二个均匀骰子,将其值相加,就不属于离散型均匀分布,因为各个和的概率不同。
虽然离散型均匀分布常用来描述观察值为连续整数的分布,例如前述的掷骰子范例,但实际上可以在任意有限集合上定义离散型均匀分布,例如随机置换就是由已知长度的置换中均匀随机产生的组合,而均匀生成树则是从给定图的生成树集合中均匀随机抽样得到的生成树。
离散分布,即分布函数的值域是离散的,比如只取整数值的随机变量就是属于离散分布的。因为涉及到离散的函数,通常就会有非常复杂的定义和公式,不像离散的还可以用数列和组合的方法,因此高中阶段通常只涉及连续型均匀分布和正态分布。
连续型均匀分布(continuous uniform distribution)或矩形分布(rectangular distribution)的随机变量 x ,在其值域之内的每个等长区间上取值的概率皆相等。其概率密度函数在该变量的值域内为常数。
伯努利分布
伯努利分布又名两点分布或者 0-1 分布,是一个离散型概率分布。伯努利试验是只有两种可能结果(成功或失败)的单次随机试验,若伯努利试验成功,则伯努利随机变量取值为 1。若伯努利试验失败,则伯努利随机变量取值为 0。记其成功概率为 p,失败概率为 q=1-p。
学过后面的内容后,我们可以将其记为 X\sim B(1,p),表示 n=1 的二项分布。
泊松分布
泊松分布,又称 Poisson 分布、帕松分布、布瓦松分布、布阿松分布、普阿松分布、波以松分布、卜氏分布、帕松小数法则等,泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA 序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。(单位时间内发生的次数,可以看作事件发生的频率,类似物理的频率。
Poisson 近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值 p 相对很小,而抽取次数 n 值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为 p ,那么在 n 次试验中出现 k 次的概率按照泊松分布应该为:
f(n,k,p)={\frac {(n\cdot p)^{k}}{e^{n\cdot p}\cdot k!}}
其中,数学常数 e=2.71828...。
我们记 \lambda=np 为泊松分布的参数,则可以记 X 服从泊松分布为 X\sim\text{Poisson}(\lambda),即:
P(X=k)=\dfrac{\lambda^k}{e^\lambda k!}
泊松分布还用于:生物学、医学、工业、排队等问题,如容器内细菌数;铸件或布匹的疵点数;交换台的接入电话数;某 路口经过的汽车数。
二项分布
只有“成功”和“失败”两种可能结果,每次重复时成功概率不变的独立随机试验称作伯努利试验,例如上述的掷硬币出现正面或反面、对产品进行抽样检查时抽到正品或次品。二项分布描述在进行独立随机试验时,每次试验都有相同概率“成功”的情况下,获得成功的总次数。
f_n(k)={n \choose k}p^{k}(1-p)^{n-k}\quad (k=0,1,\ldots ,n)
其中 n 为正整数、0\le p\le 1,则称 x 服从参数为 n,p 的二项分布,记为 x\sim B(n,p)。根据二项式定理,对其所有项求和,就会得到一。
泊松二项分布
在概率论和统计学中,泊松二项分布是一个基于独立伯努利试验之和的离散概率分布。换句话说,它是成功概率分别为 p_{1},p_{2},\dots ,p_{n} 的 n 次独立伯努利试验中,成功次数的概率分布。普通二项分布是泊松二项分布在所有成功概率相同(即 p_{1}=p_{2}=\cdots =p_{n})时的特例。
假设有 n 次独立伯努利试验,第 i 次试验成功的概率为 p_i,则成功总次数 X 的概率分布即为泊松二项分布。标准二项分布要求每次成功概率 p 相同;而泊松二项分布允许 p_i 互不相同。
数学期望(平均值):E[X] = \sum_{i=1}^{n} p_i。
方差:\text{Var}(X) = \sum_{i=1}^{n} p_i(1 - p_i)。
当 k 次成功的概率为:
P(X = k) = \sum_{A \in F_k} \left( \prod_{i \in A} p_i \prod_{j \in A^c} (1 - p_j) \right)
其中 F_k 是集合 \{1, 2, \dots, n\} 中所有大小为 k 的子集。
负二项分布
负二项分布是一种描述在一系列独立同分布的伯努利试验中,成功次数达到指定次数 r 时失败次数的离散概率分布。比如,如果我们定义掷骰子随机变量 x 值为 x=1 时成功,所有 x\neq1 为失败,这时我们反复掷骰子直到 1 出现 3 次(r=3),此时非 1 数字出现次数的概率分布即为负二项分布。当 r 是整数时的负二项分布又称帕斯卡分布,其概率质量函数为:
f(k;r,p)=\dbinom{k+r-1}{r-1} p^r(1-p)^k,\quad k=0,1,2,\dots
其中 k 是失败的次数, r 是成功的次数, p 是事件成功的概率。在负二项分布的概率质量函数中,由于 k+r 次伯努利试验为独立同分布,每个成功 r 次、失败 k 次的事件的概率为 p^r(1-p)^k。由于第 r 次成功一定是最后一次试验,所以应该在 k+r-1 次试验中选择 r-1 次成功,使用排列组合二项系数获取所有可能的选择数。
超几何分布
超几何分布是统计学上一种离散概率分布。它描述了由有限个对象中抽出 n 个对象,成功抽出 k 次指定种类的对象的概率(抽出不放回),记为 X\sim H(n,K,N)。例如在有 N 个样本,其中 K 个是不及格的。超几何分布描述了在该 N 个样本中抽出 n 个,其中 k 个是不及格的个数:
f(k;n,K,N)=\dfrac{\dbinom{K}{k}\dbinom{N-K}{n-k}}{\dbinom{N}{n}}
上式可如此理解:\dbinom{N}{n} 表示所有在 N 个样本中抽出 n 个的方法数目。\dbinom{K}{k} 表示在 K 个样本中,抽出 k 个的方法数目。剩下来的样本都是及格的,而及格的样本有 N-K 个,剩下的抽法便有 \dbinom{N-K}{n-k}。若 n=1,超几何分布退化为伯努利分布。
连续型随机变量
随机变量取值不确定,但取每个值的可能性大小可以确定。随机变量可以更准确地描述事件结果;可以更准确地描述事件概率(概率分布)。
一般地考虑 、{a < X < b|} 这样的事件,对连续型随机变量不考虑 、{X = a、} 这样的事件。
对于随机变量 X,如果存在非负可积函数 p(x)(-\infty < x < \infty),使对任意 a, b(a < b) 都有
P(a<X<b)=\inf_a^b p(x)\mathrm{d} x
则称 X 为连续型随机变量;称 p(x) 为 X 的概率密度函数(probability density funcition, PDF),简称概率密度或密度。
如果 X 的取值遍布一区间甚至是整个数线 X(S)=[a,b] 则称 X 为连续随机变量。
设 X 为连续型随机变量,考察 P\{ X = x \} 往往是无意义的(因为这一概率很可能是 0)。
为什么说概率「很可能」是 0?考虑这样的随机变量 X:它以 1/2 的概率取 0,以 1/2 的概率服从开区间 (0, 1) 上的均匀分布。显然 X 满足连续型随机变量的定义。对任何实数 r \in (0, 1),不难得到 P\{ X = r \} = 0,但同时有 P\{ X = 0 \} = 1/2。
另一方面,设 X \sim F(x),则
P( l < x \leq l + \Delta x ) = F(l + \Delta x) - F(l)
一个自然的想法是用极限:
\lim\limits_{\Delta x \to 0^+} \frac{F(l + \Delta x) - F(l)}{\Delta x}
来描述 X 取值为 l 的可能性,这个式子就是我们熟知的导数,于是问题转化为寻找一个非负函数 f(x) 使得:
F(x) = \int_{-\infty}^{x} f(x) \text{d} x
若这样的 f(x) 存在,则称之为 X 的密度函数。
概率密度不是概率!概率密度非负,但不需要小于 1。连续型随机变量至少在一个区间内可以取到任意实数值,所以取每个值的概率应该等于零。概率密度函数积分等于 1。概率密度为非负可积函数,在 (-\infty, \infty) 积分等于 1。实际中的非离散型的随机变量一般是连续型的,而且 p(x) 至多有有限多个间断点,在其它地方连续。概率密度改变单个点的数值仍为 X 的密度。但是若 p_1(x), p_2(x) 都是 X 的密度且都在 x_0 连续,则 p_1(x_0) = p_2(x_0)。
均匀分布
顾名思义,若 X 有概率密度:
p(x)=\begin{cases} \dfrac{1}{b-a}&x\in[a,b]\\ 0&\text{Otherwise.} \end{cases}
则称 X 服从 [a, b] 区间上的均匀分布 (uniform distribution),记为 X \sim U[a, b]。
对 a\le c<d\le b,
P(c<X<d)=\int_c^dp(x)\mathrm dx=\dfrac{d-c}{b-a}
X 取值于 [a, b] 中任一区间的概率与该区间长度成正比。概率密度是常数,说明 X 取 [a, b] 内任何一点附近的值的可能性大小都是相同的,所以叫“均匀”分布。
指数分布
若 X 有概率密度:
p(x)=\begin{cases} \lambda e^{-\lambda x}&x\ge 0\\ 0&x<0 \end{cases}
则称 X 服从指数分布 (exponential distribution)(参数为 \lambda),记作 X \sim E(\lambda)。
推导证明积分为 1 较为复杂,只需要知道确实是就行。
正态分布
正态分布,物理学中通称高斯分布,其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线。
正态分布的概率密度函数中以平均值 \mu、标准差 \sigma 为参数,正态分布的数学期望值或期望 \mu ,可解释为位置参数,决定了分布的位置;其方差 \sigma ^{2} 的平方根或标准差 \sigma 可解释尺度参数,决定了分布的幅度。
中心极限定理指出,在特定条件下,一个具有有限均值和方差的随机变量的多个样本(观察值)的平均值本身就是一个随机变量,其分布随着样本数量的增加而收敛于正态分布。
因此,许多与独立过程总和有关的物理量,例如测量误差,通常可被近似为正态分布。正态分布是一种理想分布,许多典型的分布,比如成年人的身高、汽车轮胎的运转状态、人类的智商值(IQ),都属于或者说至少接近正态分布。
同样按照连续分布的定义,正态概率密度函数具有和普通概率密度函数类似的性质。
正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的,理论上可以证明:如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布。
正态分布出现在许多区域统计:例如,采样分布均值是近似正态分布的,即使被采样的样本的原始群体分布并不服从正态分布。另外,正态分布信息熵在所有的已知均值及方差的分布中最大,这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及许多统计测试中最广泛应用的一类分布。在概率论,正态分布是几种连续以及离散分布的极限分布。
正态分布中一些值得注意的量:
密度函数关于平均值对称。
平均值与其众数(statistical mode)以及中位数(median)为同一数值。
函数曲线下 68.268949\% 的面积在平均数左右的一个标准差范围内。
95.449974\% 的面积在平均数左右两个标准差 2 \sigma 的范围内。
99.730020\% 的面积在平均数左右三个标准差 3 \sigma 的范围内。
99.993666\% 的面积在平均数左右四个标准差 4 \sigma 的范围内。
函数曲线的拐点(inflection point)为离平均数一个标准差距离的位置。
总结 正态曲线的性质:
曲线在 x 轴的上方,与 x 轴不相交;
曲线是单峰的,它关于直线 x=\mu 对称,且曲线在 x=\mu 处取得最大值;
曲线与 x 轴之间的面积为 1;
当 \mu 一定时,\sigma 越大,曲线越**“矮胖”,表示总体的分布越分散**;\sigma 越小,曲线越**“瘦高”,表示总体的分布越集中**.
参数 \mu 反映了正态分布的集中位置,\sigma 反映了随机变量的分布相对于均值 \mu 的离散程度. 在实际问题中,参数 \mu,\sigma 可以分别用样本均值和样本标准差来估计,故有 若 X \sim N(\mu, \sigma^2),则 E(X) = \mu, D(X) = \sigma^2.
正态分布的一些性质:
线性变换不变性:若 X \sim N(\mu, \sigma^2) 且 a 与 b 是实数,那么 aX + b \sim N(a \mu + b, a^2 \sigma^2)。
独立可加性:如果 X \sim N(\mu_1, \sigma_1^2) 与 Y \sim N(\mu_2, \sigma_2^2) 是统计独立的正态随机变量,那么:
X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)
特别地,若 X 与 Y 的方差相等,则 U = X + Y 与 V = X - Y 相互独立。
如果 X \sim N(0, \sigma_1^2) 和 Y \sim N(0, \sigma_2^2) 是独立正态随机变量,那么:
它们的积 XY 服从概率密度函数为 p 的分布:
p(z) = \frac{1}{\pi \sigma_1 \sigma_2} K_0 \left( \frac{|z|}{\sigma_1 \sigma_2} \right)
其中 K_0 是修正贝塞尔函数(modified Bessel function)。
它们的比符合柯西分布,满足 X/Y \sim \text{Cauchy}(0, \sigma_1 / \sigma_2)。
如果 X_1, \dots, X_n 为独立标准正态随机变量,那么 X_1^2 + \dots + X_n^2 服从自由度为 n 的卡方分布,记作 X_1^2 + \dots + X_n^2 \sim \chi^2(n)。
我们定义 \mu=0,\sigma=1 的正态分布 N(0,1) 为标准正态分布。在高中大部分正态分布题目中,核心的两个要素就是(1)读懂题目中的符号(2)熟练使用对称性。我们知道正态分布 N(\mu,\sigma^2) 是关于 x=\mu 高度对称的,而且我们通常会讨论 \mu\pm k\sigma,只需要分多段,利用对称性解决即可。
概率分布综合
中心极限定理
中心极限定理(central limit theorem,简作 CLT)是概率论中的一组定理。在概率论中,中心极限定理 (CLT) 确定的为,在许多情况下,对于独立并同样分布的随机变量,即使原始变量本身不是正态分布,标准化样本均值的抽样分布也趋向于标准正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。
中心极限定理有着有趣的历史。这个定理的第一版被法国数学家棣莫弗发现,他在 1733 年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。这个超越时代的成果险些被历史遗忘,所幸著名法国数学家拉普拉斯在 1812 年发表的巨著 Théorie Analytique des Probabilités 中拯救了这个默默无名的理论。
拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。直到十九世纪末中心极限定理的重要性才被世人所知。1901 年,俄国数学家里雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。如今,中心极限定理被认为是(非正式地)概率论中的首席定理。 Tijms (2004, p.169)
中心极限定理指出,随着随机变量数量的增加,许多具有有限方差的独立的且相同分布的随机变量的总和将趋于正态分布。渐进分布(Asymptotic distribution)是指某种特定分布的大样本性质,即在样本量足够大时的极限分布。
所谓大样本是指在能够满足中心极限定理要求的情况下,使抽样分布趋向于正态分布的样本容量。但大样本的具体数目应该根据总体分布情况,采用的估计方法和对估计精度的要求所需被具体地予以的确定,较难使用一个具体的数值进行界定。
在金融工程领域,样本的概率分布未必能够呈现出严格的正态分布,往往呈现出有偏的渐进正态分布;在金融参数估计时,一般也需要通过对渐进分布的研究确定恰当的统计量,这是统计量的大样本性质以及渐进分布显得尤为重要。
在数学中,本福特定律(Benford’s law)描述了真实数字数据集中首位数字的频率分布。一堆从实际生活得出的数据中,以 1 为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望 1/9 的 3 倍。推广来说,越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。
分布函数
分布函数:分布密度不利于直接计算概率。比如计算连续型随机变量 X 的概率 P(a < X < b)。引入“分布函数”,设 X 是一个随机变量,称函数
F(x) = P(X \le x)
为 X 的分布函数 (distribution function, 或 cumulative distribution function, CDF)。任何一个随机变量都有分布函数。
分布函数的性质:
- 0 \le F(x) \le 1;
- F(x) 是 x 的单调递增函数;
- \lim_{x\to-\infty} F(x) = 0, \lim_{x\to\infty} F(x) = 1;
- P(a < X \le b) = F(b) - F(a)。
- 若 X 为连续型,则 P(a < X < b) = F(b) - F(a)。
随机变量 X 的分布函数可记作 F_X(x), 随机变量 Y 的分布函数可记作 F_Y (x) 或 F_Y (y)(注意函数的自变量符号的选用不影响函数本身)。
随机变量函数的分布
设 f(x) 是一个函数,随机变量 f(X) 是随机变量 Y,当 X = x 时,Y 取值 y = f(x)。记作 Y = f(X),这相当于复合函数 Y = f(X) = f(X(\omega))。
若 X 是离散型随机变量,取值 x_1, x_2, \dots, x_k, \dots,且 P(x_k) = p_k \ (k = 1, 2, \dots),则 Y = f(X) 的取值为 f(x_1), f(x_2), \dots, f(x_k), \dots。
若各 f(x_k) \ (k = 1, 2, \dots) 互不相同,则
P(Y = f(x_k)) = p_k
即为 Y 的概率分布。
若 f(x_k) \ (k = 1, 2, \dots) 中有重复值,设所有互不相等的值为 y_1, y_2, \dots,则
P(Y = y_k) = \sum_{f(x_j) = y_k} p_j
概率分布总结
| 分布 | 意义 | 记号 | 分布列 / 密度函数 | 期望 E(X) | 方差 D(X) |
|---|---|---|---|---|---|
| 伯努利分布 | 单次试验成功/失败 | X \sim B(1, p) | P(X=1)=p,\;P(X=0)=1-p | p | p(1-p) |
| 二项分布 | n 次独立重复试验的成功次数 | X \sim B(n, p) | \displaystyle P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} | np | np(1-p) |
| 泊松二项分布 | 成功概率各异的 n 次独立试验的成功次数 | — | \displaystyle P(X=k)=\sum_{A\in F_k}\prod_{i\in A}p_i\prod_{j\notin A}(1-p_j) | \displaystyle\sum p_i | \displaystyle\sum p_i(1-p_i) |
| 负二项分布 | 第 r 次成功时经历的失败次数 | X \sim \text{NB}(r, p) | \displaystyle P(X=k)=\binom{k+r-1}{r-1}p^r(1-p)^k | \dfrac{r(1-p)}{p} | \dfrac{r(1-p)}{p^{2}} |
| 超几何分布 | N 个中含 K 个次品,不放回抽 n 个的次品数 | X \sim H(n, K, N) | \displaystyle P(X=k)=\frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}} | \dfrac{nK}{N} | n\dfrac{K}{N}\!\left(1-\dfrac{K}{N}\right)\!\dfrac{N-n}{N-1} |
| 泊松分布 | 单位时间/空间内随机事件的发生次数 | X \sim \text{Poisson}(\lambda) | \displaystyle P(X=k)=\frac{\lambda^{k}}{e^{\lambda}\,k!} | \lambda | \lambda |
| 离散均匀分布 | n 个等可能取值 | — | \displaystyle P(X=x_i)=\frac{1}{n} | \dfrac{n+1}{2}(连续整数) | \dfrac{n^{2}-1}{12} |
| 连续均匀分布 | [a,b] 区间内等可能取值 | X \sim U[a, b] | \displaystyle f(x)=\frac{1}{b-a},\;x\in[a,b] | \dfrac{a+b}{2} | \dfrac{(b-a)^{2}}{12} |
| 指数分布 | 独立事件发生的时间间隔 | X \sim E(\lambda) | \displaystyle f(x)=\lambda e^{-\lambda x},\;x\ge 0 | \dfrac{1}{\lambda} | \dfrac{1}{\lambda^{2}} |
| 正态分布 | 大量独立微小因素叠加的结果 | X \sim N(\mu, \sigma^{2}) | \displaystyle f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\frac{(x-\mu)^{2}}{2\sigma^{2}}\right) | \mu | \sigma^{2} |
同分布是一种等价关系——每一个等价类即为一个分布。上表中的记号只是约定俗成的简写,实际指代属于该类分布的所有随机变量。
概率分布中的大小与单调性
题型一 二项分布中 k 为变量的概率求最值
例 1 某人在 n 次射击中击中目标的次数为 X,且 X \sim B(n, p),已知 E(X) = 6.4, D(X) = 1.28,则当 P(X=r) 取最大值时,r=________ .
解析 依题意,得 \begin{cases} E(X) = np = 6.4, \\ D(X) = np(1-p) = 1.28, \end{cases} 解得 n = 8, p = 0.8,故 X \sim B(8, 0.8),所以 P(X=k) = C_8^k \times 0.8^k \times 0.2^{8-k}. 当 P(X=r) 最大时, \begin{cases} P(X=r) \ge P(X=r-1), \\ P(X=r) \ge P(X=r+1), \end{cases} 即 \begin{cases} C_8^r \times 0.8^r \times 0.2^{8-r} \ge C_8^{r-1} \times 0.8^{r-1} \times 0.2^{9-r}, \\ C_8^r \times 0.8^r \times 0.2^{8-r} \ge C_8^{r+1} \times 0.8^{r+1} \times 0.2^{7-r}, \end{cases}
即 \begin{cases} \frac{8!}{r!(8-r)!} \times 0.8 \ge \frac{8!}{(r-1)!(9-r)!} \times 0.2, \\ \frac{8!}{r!(8-r)!} \times 0.2 \ge \frac{8!}{(r+1)!(7-r)!} \times 0.8, \end{cases} 整理得 \begin{cases} 4(9-r) \ge r, \\ 4(8-r) \le r+1, \end{cases} 解得 \frac{31}{5} \le r \le \frac{36}{5},而 r \in \mathbf{N}^*,因此 r = 7.
答案:7
总结:建立不等式组:\begin{cases} P(X=k) \ge P(X=k-1) \\ P(X=k) \ge P(X=k+1) \end{cases} 解不等式组,即可得到 k 的取值范围,然后根据 k \in \mathbf{N}^*,得出 k 的值。
练 1 已知随机变量 \xi \sim B(7, 0.5),则概率 P(\xi=k) 最大时,k 的取值为( ) A.3 B.4 C.3 或 4 D.4 或 5
1.C 【分析】根据二项分布的随机变量取值的概率公式建立不等关系,可得最大值时的 k. 【详解】依题意 P(\xi=k) = C_7^k \left(\frac{1}{2}\right)^k \left(\frac{1}{2}\right)^{7-k} = C_7^k \left(\frac{1}{2}\right)^7, k=0,1,2,\dots,7, 由 \begin{cases} P(X=k) \ge P(X=k+1) \\ P(X=k) \ge P(X=k-1) \end{cases}, 即 \begin{cases} C_7^k \left(\frac{1}{2}\right)^7 \ge C_7^{k+1} \left(\frac{1}{2}\right)^7 \\ C_7^k \left(\frac{1}{2}\right)^7 \ge C_7^{k-1} \left(\frac{1}{2}\right)^7 \end{cases},解得 k=3 或 k=4. 故选:C.
(旁注:或直接运用二级结论 (n+1)p = 4,即当 k=3 或 4 时,概率最大)
题型二 二项分布 n 为变量的概率求最值
例 2 一年之计在于春,一日之计在于晨,春天是播种的季节,是希望的开端.某种植户对一块地的 n 个坑进行播种,每个坑播 3 粒种子,每粒种子发芽的概率均为 \frac{1}{2},且每粒种子是否发芽相互独立.对每一个坑而言,如果至少有两粒种子发芽,则不需要进行补播种,否则要补播种.则当 n =________时,有 3 个坑要补播种的概率最大,最大概率为________.
练 2 随着科技的不断发展,人工智能技术的应用领域也将会更加广泛,它将会成为改变人类社会发展的重要力量.某科技公司发明了一套人机交互软件,它会从数据库中检索最贴切的结果进行应答.在对该交互软件进行测试时,如果输入的问题没有语法错误,则软件正确应答的概率为 80%;若出现语法错误,则软件正确应答的概率为 30%.假设每次输入的问题出现语法错误的概率为 10%.
- 求一个问题能被软件正确应答的概率;
- 在某次测试中,输入了 n(n \ge 6) 个问题,每个问题能否被软件正确应答相互独立,记软件正确应答的个数为 X,X=k (k=0,1,\dots,n) 的概率记为 P(X=k),则 n 为何值时,P(X=6) 的值最大?
2.(1) 0.75 (2) 7 或 8 解析 (1)记“输入的问题没有语法错误“为事件 A,“回答正确“为事件 B, 由题意可知:P(\bar{A})=0.1, P(B|A)=0.8, P(B|\bar{A})=0.3,则 P(A)=1-P(\bar{A})=0.9, 所以 P(B) = P(B|\bar{A})P(\bar{A}) + P(B|A)P(A) = 0.75. (2)由(1)可知:P(B) = 0.75 = \frac{3}{4}, 则 X \sim B\left(n, \frac{3}{4}\right),可得 P(X=6) = C_n^6 \left(\frac{3}{4}\right)^6 \left(1-\frac{3}{4}\right)^{n-6} = C_n^6 \left(\frac{3}{4}\right)^6 \left(\frac{1}{4}\right)^{n-6}, 令 a_n = C_n^6 \left(\frac{3}{4}\right)^6 \left(\frac{1}{4}\right)^{n-6},则 \frac{a_{n+1}}{a_n} = \frac{C_{n+1}^6 \left(\frac{3}{4}\right)^6 \left(\frac{1}{4}\right)^{n-5}}{C_n^6 \left(\frac{3}{4}\right)^6 \left(\frac{1}{4}\right)^{n-6}} = \frac{n+1}{4(n-5)}, 令 \frac{n+1}{4(n-5)} > 1,解得 n < 7,可知当 n \le 6,可得 a_{n+1} > a_n; 令 \frac{n+1}{4(n-5)} < 1,解得 n > 7,可知当 n \ge 8,可得 a_{n+1} < a_n; 令 \frac{n+1}{4(n-5)} = 1,解得 n = 7,可得 a_8 = a_7; 所以当 n=7 或 n=8 时,a_n 最大,即 n 为 7 或 8 时,P(X=6) 的值最大。
题型三 二项分布 p 为变量的概率求最值(转化为导数问题)
例 3 (2018 年全国 1 卷).某工厂的某种产品成箱包装,每箱 200 件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取 20 件作检验,再根据检验结果决定是否对余下的所有产品作检验,设每件产品为不合格品的概率都为 p(0<p<1),且各件产品是否为不合格品相互独立. (1)记 20 件产品中恰有 2 件不合格品的概率为 f(p),求 f(p) 的最大值点 p_0;
解析 方法一(通性通法):利用导数求最值 20 件产品中恰有 2 件不合格品的概率为 f(p) = C_{20}^2 p^2 (1-p)^{18}. 因此 f'(p) = C_{20}^2 \left[ 2p(1-p)^{18} - 18p^2 (1-p)^{17} \right] = 2C_{20}^2 p(1-p)^{17} (1-10p). 令 f'(p) = 0,得 p = 0.1.当 p \in (0,0.1) 时,f'(p) > 0;当 p \in (0.1,1) 时,f'(p) < 0. 所以 f(p) 的最大值点为 p_0 = 0.1;
方法二(最优解):均值不等式 由题可知,20 件产品中恰有 2 件不合格品的概率为 f(p) = C_{20}^2 p^2 (1-p)^{18}. f(p) = C_{20}^2 p^2 (1-p)^{18} = \frac{190}{81} (9p)(9p)(1-p)^{18} \le \frac{190}{81} \left[ \frac{9p+9p+18(1-p)}{20} \right]^{20} = \frac{190}{81} \left( \frac{18}{20} \right)^{20},当且仅当 9p = 1-p,即 p = \frac{1}{10} 可得所求.
当 n, k 给定时,可得到函数 f(p) = C_n^k p^k (1-p)^{n-k}, p \in (0,1),这个是函数的最值问题,这可以用导数求函数最值与最值点。
分析:f'(p) = C_n^k \left[ k p^{k-1}(1-p)^{n-k} - p^k (n-k)(1-p)^{n-k-1} \right] = C_n^k p^{k-1}(1-p)^{n-k-1} \left[ k(1-p) - (n-k)p \right] = C_n^k p^{k-1}(1-p)^{n-k-1} (k-np).
当 k=1,2,\dots,n-1 时,由于当 p < \frac{k}{n} 时,f'(p) > 0,f(p) 单调递增,当 p > \frac{k}{n} 时,f'(p) < 0,f(p) 单调递减,故当 p = \frac{k}{n} 时,f(p) 取得最大值,f(p)_{\max} = f\left(\frac{k}{n}\right).又当 p \to 1, f(p) \to 0,当 p \to 0 时,f(p) \to 0,从而 f(p) 无最小值。
练 5 某校开展“学习新中国史“的主题学习活动。为了调查学生对新中国史的了解情况,需要对学生进行答题测试,答题测试的规则如下:每位参与测试的学生最多有两次答题机会,每次答一题,第一次答对,答题测试过关,得 5 分,停止答题测试;第一次答错,继续第二次答题,若答对,答题测试过关,得 3 分;若两次均答错,答题测试不过关,得 0 分。某班有 12 位学生参与答题测试,假设每位学生第一次和第二次答题答对的概率分别为 m,0.5,两次答题是否答对互不影响,每位学生答题测试过关的概率为 P.
- 若 m = 0.5,求每一位参与答题测试的学生所得分数的数学期望;
- 设该班恰有 9 人答题测试过关的概率为 f(p),当 f(p) 取最大值时,求 p,m.
5.(1) 3.25 (2) p = \frac{3}{4}, m = \frac{1}{2} 解析 (1)设每一位参与答题测试的学生所得分数为 X,则 X 可取 0, 3, 5 P(X=0) = 0.5 \times 0.5 = 0.25 P(X=3) = 0.5 \times 0.5 = 0.25 P(X=5) = 0.5 即每一位参与答题测试的学生所得分数的数学期望为 E(X) = 0 \times 0.25 + 3 \times 0.25 + 5 \times 0.5 = 3.25 (2)p = m + (1-m)\left(1-\frac{1}{2}\right) = \frac{1}{2} + \frac{m}{2} 根据题意,该班恰有 9 人答题测试过关的概率为 f(p) = C_{12}^9 p^9 (1-p)^3 f'(p) = 9 C_{12}^9 p^8 (1-p)^3 - 3 C_{12}^9 p^9 (1-p)^2 = 3 C_{12}^9 p^8 (1-p)^2 (3-4p) f'(p) > 0 \implies 0 < p < \frac{3}{4}, \quad f'(p) < 0 \implies \frac{3}{4} < p < 1 故 f(p) 在 \left(0, \frac{3}{4}\right) 上单调递增,在 \left(\frac{3}{4}, 1\right) 上单调递减 故当 p = \frac{3}{4} 时,f(p) 取最大值,此时 \frac{1}{2} + \frac{m}{2} = \frac{3}{4}, m = \frac{1}{2}
随机变量的数字特征
统计学是在资料分析的基础上,研究测定、收集、整理、归纳和分析反映数据资料,以便给出正确消息的科学。叙述统计,是统计学中,来描绘或总结观察量的基本情况的统计总称。其与统计推断相对应。
研究者可以透过对数据资料的图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况。通常会使用的工具是频数分布表与图示法,如折线图、直方图、饼图、散点图等。
研究者也可以透过分析数据资料,以了解各变量内的观察值集中与分散的情况。运用的工具有:集中量数,如平均数、中位数、众数、几何平均数、调和平均数,与变异量数,如全距、平均差、标准差、相对差、四分差。
在推论统计中,测量样本的集中量数与变异量数都是变量的无偏估计值,但是以平均数、方差、标准差的有效性最高。数据的次数分配情况,往往会呈现正态分布。
为了表示测量数据与正态分布偏离的情况,会使用偏度、峰度这两种统计数据。
为了解个别观察值在整体中所占的位置,会需要将观察值变换为相对量数,如百分等级、标准分数、四分位数等。
统计学中,统计推断与描述统计相对应。统计推断的结果常用来决定下一步的作法,可能是要做更深入的试验或问卷,或是是决定是否要实行某项方案。
推断统计学,或称统计推断,指统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。更概括地说,是在一段有限的时间内,通过对一个随机过程的观察来进行推断的。
随机变量的期望
算术平均数 A_n:
\bar x=\dfrac1n\sum_{i=1}^nx_i
离散型随机变量:设离散型随机变量 X 的概率分布为 p_i = P\{ X = x_i \},若和式
\sum x_i p_i
绝对收敛,则称其值为 X 的期望,记作 EX。
连续型随机变量:设连续型随机变量 X 的密度函数为 f(x),若积分
\int_{\mathbb{R}} xf(x) \text{d} x
绝对收敛,则称其值为 X 的期望,记作 EX。
期望的性质:
期望的线性性(据此可以通过变换计算平均数):
E(ax+by+c)=aEx+bEy+c
若随机变量 X,Y 的期望存在且 X,Y 相互独立,则有
E(XY) = EX \cdot EY
注意:上述性质中的独立性并非必要条件。
随机变量的方差
我们常见的序列方差:
DX=\dfrac1n\sum_{i=1}^n(X_i-\bar X)^2
推广到一般的随机变量:
设随机变量 X 的期望 EX 存在且期望
DX=E\left[(X - EX)^2\right]=\sum p_i(X_i-EX)^2
也存在,则称上式的值为随机变量 X 的方差,记作 DX 或 VX。
拆开平方即可得到:
DX=E(X^2)-(EX)^2
方差也有类似线性性的变换:
\begin{aligned} V(ax+b)&=E\left[(ax+b)^2\right]-\left[E(ax+b)\right]^2\\ &=a^2E(x^2)+2abEx+b^2-\left[a^2(Ex)^2+2abEx+b^2\right]\\ &=a^2\left[E(x^2)-(Ex)^2\right]\\ &=a^2V(x) \end{aligned}
这暗示了方程描述离散程度的性质。
方差的算术平方根称为标准差,记作 \sigma(X) = \sqrt{DX}。
在有些时候,例如正态分布,我们也会用 \sigma^2 来表示方差。
众数中位数和百分位数
众数和中位数:
- 数据的频率分布表、频率分布直方图和茎叶图都可以展示出数据的分布形状,从中可以对数据有一个大致的了解。
- 需要更简单概括的描述方式。
- 平均值、标准差、众数、中位数等称为数据的数字特征。
众数:
- 众数是观测值中出现次数最多的数,记为 M_0。
- 如果次数最多的不止一个,众数允许有多个。
- 众数有一定代表性。它受数据中极大或极小值变化的影响较小。从分布的角度看,众数出现的频率最高。
- 但是,众数的位置偶然性也比较大,现代采用较少。
极差:
- 数据中最大值与最小值的差称为极差,直观反映了数据分布范围宽窄。
中位数:
- 样本数据从小到大排列后,最中间的一个(有奇数个时)的值或最中间的两个(有偶数个时)的平均值为样本中位数。
- 记作 M_d。
- 用作样本左右位置的一个度量指标,以及总体左右位置的估计。
- 设观测数据已经被从小到大排列为: x_1 \leq x_2 \leq \cdots \leq x_n
- 对 n 为奇数情况,中位数是从小到大排在中间一个,M_d = x_{\frac{n+1}{2}}。如:1, 5, 9, 12, 13 的中位数是 9。
- 对 n 为偶数情况,中位数用从小到大排在中间的两个平均计算,M_d = \frac{1}{2}(x_{\frac{n}{2}} + x_{\frac{n}{2}+1})。如:1, 5, 9, 12, 13, 21 的中位数是 M_d = \frac{9+12}{2} = 10.5。
- 小于等于中位数的数据不少于样本量的二分之一,大于等于中位数的数据不少于样本量的二分之一。
- 中位数作为总体位置的度量比较不受极端值影响,而均值则会受到极端值影响。
若将一组数据从小到大排序,并计算相应的累计百分点,则某百分点所对应数据的值,就称为这百分点的百分位数,以 P_k 表示第 k 百分位数。
准确定义:P_k 表示至少有 k\% 的资料小于或等于这个数,而同时也至少有 (100-k)\% 的资料大于或等于这个数。
特殊的:
| 百分位数 | 意义 |
|---|---|
| P_0 | 最小值 |
| Q_1=P_{25} | 第一个四分位数,下四分位数 |
| Q_2=P_{50} | 第二个四分位数,中位数 |
| Q_3=P_{75} | 第三个四分位数,上四分位数 |
| P_{100} | 最大值 |
百分位数的计算方法:
- 将数据从小到大排序为 x_1, x_2, \dots, x_n。
- 计算 i = n \cdot p\%:
- 如果 i 不是整数,则取 x_{\lceil i \rceil} 为 p\% 分位数。
- 否则,取 (x_i + x_{i+1})/2 为 p\% 分位数。
- 特别的,规定 0 分位数为最小值,100\% 分位数为最大值。
另外的,P_{75} 与 P_{25} 的差称为四分位距。
四分之一和四分之三分位数:
- 设样本的中位数为 M_d,从样本中取出小于等于 M_d 的子集,计算这个子集的中位数,定义为四分之一分位数。
- 大于等于四分之一分位数的样本点占所有样本点比例约为四分之一,小于等于四分之一分位数的样本点占所有样本点比例约为四分之三。
- 四分之三分位数类似计算。
总体分位数:
- 设总体 X 有严格单调增的连续分布函数 F(x),F^{-1}(p), p \in (0, 1) 为 F(\cdot) 的反函数。
- 对 p \in (0, 1),称 F^{-1}(p) 为 X 的 p 分位数。
- 一般地,若 x_p 使得 P(X \leq x_p) \geq p, \quad P(X \geq x_p) \geq 1 - p 称 x_p 为 X 的 p 分位数。
- 这样的 p 分位数可能不唯一。
- 为了使得 p 分位数定义唯一,令 F^{-1}(p) = \inf\{x : F(x) \geq p\}, \quad p \in (0, 1) 称 F^{-1}(p) 为 X 的 p 分位数。
样本分位数:
- 样本分位数是总体分位数的估计。
- 对样本 x_1, x_2, \dots, x_n,设其从小到大排列为 x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)},总体分位数 x_p 的估计常采用 b = x_{([np])},这里 [\cdot] 表示向下取整运算。
- 分位数估计有多种方法,b = x_{([np])} 是一个最简单的估计。
- 约有比例 p 的样本小于等于样本 p 分位数,约有比例 1 - p 的样本大于等于样本 p 分位数。
马尔科夫不等式和切比雪夫不等式
概率的世界里,我们常常需要仅凭少量信息(如期望、方差)对随机变量的行为做出全局判断。马尔可夫不等式与切比雪夫不等式正是这一思想的伟大结晶。它们不需要知道分布的具体形状,仅用一阶矩或二阶矩便为我们画出了尾部概率的安全边界。
马尔可夫不等式是关于非负随机变量的最基础的概率界限。它的核心思想是:“如果一个非负变量的均值很小,那么它取到极大值的概率一定很小。”
马尔科夫不等式:设 X 是一个取值非负的随机变量,则对任意正实数 a 有
P(X \ge a) \le \frac{E(X)}{a}
事实上,由于这个不等式本身并没有用到随机变量除期望外的与分布有关的任何信息,因此直接应用这个不等式得到的约束通常很松。
在竞赛和高阶分析中,最优雅且具有普适性的证明方法是引入指示函数,即 I_A 表示 A 是否发生,发生为 1 不发生为 0,则有:
X = X I_{X\ge a} + X I_{X<a} \ge X I_{X\ge a}
因为在 X\ge a 的区间内 X\ge a 显然成立,因此继续放缩,得到:
X\ge aI_{X\ge a}
两边同时取期望(期望的单调性和线性性质):
E(X)\ge aE(I_{X\ge a})=aP(X\ge a)
进而:
P(X\ge a) \le \frac{E(X)}{a}
我们可以用一个生活模型去理解,假设一个国家的人均月收入是 10000 元(且没有负收入)。那么月收入超过 100000 元(10 倍均值)的人数比例最多是多少?答案是 10\%。因为如果超过 10\% 的人月入十万,即使剩下的人一分钱不挣,全国平均收入也会超过 10000 元,这与已知矛盾。
马尔可夫不等式只用到了“均值(一阶矩)”,信息利用率低,所以界限往往比较松。如果我们不仅知道均值,还知道“方差(二阶中心矩)”,就能得到更精细的界限。
切比雪夫不等式:设随机变量 X 的期望 \mu=E(X),方差为 \sigma^2=\text{Var}(X) 且有限,对于任意实数 \varepsilon>0 有:
P(|X-\mu|\ge\varepsilon)\le\dfrac{\sigma^2}{\varepsilon^2}
其中,如果令 \varepsilon=k\sigma(k>0),即 k\sigma 问题,则有:
P(|X-\mu|\ge k\sigma)\le\dfrac{1}{k^2}
切比雪夫不等式是统计学中 3\sigma 原则的母体。它告诉你:不论什么鬼畜的分布(偏态、多峰、离散、连续),只要均值和方差存在,数据偏离均值 3 个标准差以上的概率绝对不会超过 1/3^2 = 11.11\%。注意,如果是正态分布,这个概率仅为 0.27\%。切比雪夫给出的是最坏情况下的保底承诺。
马尔可夫不等式只用到了“均值(一阶矩)”,信息利用率低,所以界限往往比较松。如果我们不仅知道均值,还知道“方差(二阶中心矩)”,就能得到更精细的界限。
切比雪夫不等式的本质,就是对随机变量的平方差构造马尔可夫不等式。这是典型的数学化归思想。
构造新的随机变量 Y = (X - \mu)^2\ge 0,目标事件 |X - \mu| \ge \varepsilon 等价于 Y \ge \varepsilon^2。对 Y 应用马尔可夫不等式,取 a = \varepsilon^2:
P(Y \ge \varepsilon^2) \le \frac{E(Y)}{\varepsilon^2}
根据定义,E(Y) = E[(X - \mu)^2] = \text{Var}(X) = \sigma^2。代入即得:
P(|X - \mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2}
直接计算概率 P(X \in A) = \int_A f(x)\mathrm{d}x 需要知道精确的概率密度函数 f(x)。但在现实中,获取全息的 f(x) 几乎不可能。
马尔可夫和切比雪夫不等式提供了一种降维打击策略:我只需要知道这个系统的一个宏观特征(一阶矩/均值,或二阶矩/方差),我就能给出一个绝对安全的边界。我们牺牲了精度(得到了一个 \le 而不是 =),但获得了对抗未知的鲁棒性(不依赖具体分布)。
数学期望
在前面的章节中,我们通过定义和性质初步认识了期望。然而在面对动态随机过程(如反复掷硬币直到出现某个序列)时,简单的定义式 \sum x_i p_i 往往难以直接使用。本章将介绍一些更强大的工具:条件期望、全期望公式、期望方程和期望 DP。这些方法的核心思想是——将复杂的随机过程转化为代数方程。
条件期望
给定随机变量 X 和事件(或随机变量)Y,条件期望(Conditional Expectation)E[X \mid Y] 表示在已知 Y 的信息下,对 X 的平均预测。
对于离散情况,给定事件 Y = y:
E[X \mid Y = y] = \sum_{x} x \cdot P(X = x \mid Y = y)
对于连续情况:
E[X \mid Y = y] = \int x \, f_{X \mid Y}(x \mid y) \, \mathrm{d}x
需要特别注意的是,E[X \mid Y] 本身是 Y 的函数,因此也是一个随机变量:当 Y = y 时,它取值为 E[X \mid Y = y]。这个视角是理解后续内容的关键。
条件期望具有以下核心性质:
- 线性性:E[aX + bZ \mid Y] = aE[X \mid Y] + bE[Z \mid Y]
- 抽出已知量:若 g(Y) 是关于 Y 的函数,则 E[g(Y)X \mid Y] = g(Y)E[X \mid Y]
- 独立性:若 X 与 Y 独立,则 E[X \mid Y] = E[X]
- 塔性质(Tower Property):E\big[E[X \mid Y]\big] = E[X],这就是下一节的全期望公式
全期望公式
全期望公式(Law of Total Expectation),也称迭代期望律,是概率论中将复杂期望拆解为条件期望的核心工具。
定理:设 X 为随机变量,Y 为另一个随机变量(或事件划分),且 E[|X|] < \infty,则
\boxed{E[X] = E\big[E[X \mid Y]\big]}
离散形式(按 Y 的取值划分):
E[X] = \sum_y E[X \mid Y = y] \cdot P(Y = y)
连续形式:
E[X] = \int E[X \mid Y = y] \, f_Y(y) \, \mathrm{d}y
证明(离散情况):
\begin{aligned} E\big[E[X \mid Y]\big] &= \sum_y E[X \mid Y = y] \cdot P(Y = y) \\ &= \sum_y \left( \sum_x x \, P(X = x \mid Y = y) \right) P(Y = y) \\ &= \sum_x x \sum_y P(X = x \mid Y = y) P(Y = y) \\ &= \sum_x x \, P(X = x) = E[X] \end{aligned}
直观理解:整体平均 = 分组平均的加权平均。把总体按 Y 的取值分成若干层,每层先求条件均值,再用层的概率加权求和。
应用一:Wald 等式的特例。设 N 是正整数值随机变量,X_1, X_2, \dots 独立同分布且与 N 独立。令 S = \sum_{i=1}^N X_i,则
E[S] = E\big[E[S \mid N]\big] = E\big[N \cdot E[X_1]\big] = E[N] \cdot E[X_1]
应用二:几何分布的期望。抛一枚成功概率为 p 的硬币,记 X 为首次成功所需的次数。以第一次抛掷结果 Y(成功 / 失败)为条件:
\begin{aligned} E[X] &= E[X \mid \text{第一次成功}] \cdot p + E[X \mid \text{第一次失败}] \cdot (1 - p) \\ &= 1 \cdot p + (1 + E[X]) \cdot (1 - p) \end{aligned}
得到方程 E[X] = p + (1 - p)(1 + E[X]),解得 E[X] = 1 / p。这里已经出现了期望方程的雏形——失败后过程重新开始,所以条件期望中又重新出现了 E[X] 自身。
期望方程与首步分析法
全期望公式的强大之处在于,可以通过对第一步取条件,将未知期望 E[X] 转化为关于自身的方程,然后求解。这种方法在专业领域被称为首步分析法(First-Step Analysis)。
通用步骤:
- 选取第一步条件:对过程的第一步(或第一阶段的某个关键随机变量)取条件
- 表达条件期望:用已知信息写出 E[X \mid \text{第一步结果}],其中经常会重新出现 E[X] 本身
- 加权平均:利用全期望公式加权求和,得到以 E[X] 为未知数的方程
- 解方程:解出未知期望
例 1(连续两次正面):不断抛掷一枚均匀硬币,求直到出现连续两次正面(HH)所需的期望抛掷次数。
定义状态:
- 状态 0:最近没有正面(或刚失败),从头开始
- 状态 1:最近恰有一个正面
- 状态 H:已出现 HH,过程结束
设 E_0 为从状态 0 到 HH 的期望次数,E_1 为从状态 1 到 HH 的期望次数。目标为 E_0。
从状态 0 出发,抛一次,有一半概率仍是反面(回到状态 0),一半概率是正面(进入状态 1)。因此:
E_0 = 1 + \frac{1}{2}E_0 + \frac{1}{2}E_1
从状态 1 出发,抛一次,有一半概率是反面(前功尽弃,回到状态 0),一半概率是正面(游戏结束,后续期望为 0)。因此:
E_1 = 1 + \frac{1}{2}E_0 + \frac{1}{2} \times 0
由第一个方程得 E_0 = 2 + E_1,代入第二个:
E_1 = 1 + \frac{1}{2}(2 + E_1) \implies E_1 = 2 + \frac{1}{2}E_1 \implies \frac{1}{2}E_1 = 2 \implies E_1 = 4
故 E_0 = 6。平均需要 6 次抛掷。
对比:首次出现正反(HT)。如果将目标改为 HT,方程变为:
\begin{aligned} E_0 &= 1 + \frac{1}{2}E_0 + \frac{1}{2}E_H \\ E_H &= 1 + \frac{1}{2}E_H + \frac{1}{2} \times 0 \end{aligned}
注意关键差异——从状态 H(已有一个 H)失败时(即又抛出 H),这个 H 恰好可以作为下一个 HT 的开头,所以状态保持在 H,而非回到起点!解得 E_0 = 4。
为什么 HH 是 6 次而 HT 是 4 次? 因为 HH 失败时(抛出 T),不仅当前序列作废,且 T 不能作为下一个 HH 的开头;而 HT 失败时(抛出 H),这个 H 恰好可以作为下一个期望序列的开头。这就是图的拓扑结构打破了对称性,我们将在下一节系统讨论。
期望 DP 初步
所谓期望 DP,本质是运用动态规划的思想,结合全期望公式,将随机过程状态化,然后按状态之间的转移建立期望的递推关系或方程组。
状态定义:将随机过程划分为互不重叠的状态,每个状态代表过程所处的一种情形。定义 E_s 为从状态 s 出发,到目标条件所需的期望代价。注意,期望 DP 的状态定义通常是逆向的——从当前状态到终态的期望代价,因为终态的期望值是已知的(通常为 0)。
转移方程模板:考虑从状态 s 出发,按随机规则转移到下一个状态 s',转移概率为 P_{s \to s'},并伴有即时代价 c(s, s')(在计数问题中通常为 1)。那么
E_s = \sum_{s'} P_{s \to s'} \big(c(s, s') + E_{s'}\big)
或写成更简洁的形式:
E_s = \bar{c}_s + \sum_{s'} P_{s \to s'} E_{s'}
其中 \bar{c}_s = \sum P_{s \to s'} c(s, s') 是单步期望代价。
求解分类:
- 无环转移(DAG):若状态转移图是有向无环的,可拓扑排序,从终态倒推,直接递推计算。复杂度 O(n)。
- 有环转移:方程互相耦合,需解线性方程组。若状态数多则需高斯消元,复杂度 O(n^3)。
例 2(Coupon Collector 问题):有 n 种卡片,每次等可能地获得一种。求集齐全套所需的期望抽取次数。
设 E_k 为已经收集到 k 种不同的卡片时,还需抽取的期望次数。则 E_n = 0,目标是 E_0。
已有 k 种时,下次抽到新种的概率为 \dfrac{n - k}{n},抽到旧种的概率为 \dfrac{k}{n}。因此:
E_k = 1 + \frac{k}{n}E_k + \frac{n - k}{n}E_{k+1}
移项整理:
\frac{n - k}{n} E_k = 1 + \frac{n - k}{n}E_{k+1} \implies E_k = \frac{n}{n - k} + E_{k+1}
注意,经过代数变形,自环被消去,剩下的依赖只有 E_k \to E_{k+1}——这是一个链式递推。从 E_{n-1} 向前递推:
\begin{aligned} E_{n-1} &= \frac{n}{1} + E_n = n \\ E_{n-2} &= \frac{n}{2} + E_{n-1} = \frac{n}{2} + n \\ &\vdots \\ E_0 &= n\left(1 + \frac{1}{2} + \frac{1}{3} + \cdots + \frac{1}{n}\right) = n H_n \end{aligned}
其中 H_n 是第 n 个调和数。当 n 很大时,E_0 \approx n \ln n + \gamma n(\gamma \approx 0.5772 是 Euler-Mascheroni 常数)。
这个问题的拓扑本质是:已收集种类数只能增加,不能减少——这个单调性使状态间的强依赖是单向的,自环只是代数上的小事。
拓扑结构的启发意义
在期望问题中,状态转移图的拓扑性质直接决定了求解策略。所谓拓扑结构,指的是状态之间的依赖关系图——节点是状态,有向边 u \to v 表示 E_u 依赖于 E_v。
启发一:对称性折叠。在高度对称的图中,许多节点虽然物理位置不同,但在拓扑地位上完全等价。利用这种同构性,可以将庞大的图折叠成少数几个有效状态。
例 3(正方体上的随机游走):一只蚂蚁在正方体的顶点上随机爬行(每次等概率沿棱移动到相邻顶点),求它从顶点 A 爬到体对角线顶点 G 的期望步数。
按照拓扑距离折叠:
- 状态 0:起点 A(到 G 距离为 3 步)
- 状态 1:与 A 相邻的 3 个顶点(距离 2 步),拓扑等价
- 状态 2:与 G 相邻的 3 个顶点(距离 1 步),拓扑等价
- 状态 3:终点 G(E_3 = 0)
原本 8 个节点的图被折叠为 4 个节点的链式图:
\begin{aligned} E_0 &= 1 + E_1 \\ E_1 &= 1 + \frac{1}{3}E_0 + \frac{2}{3}E_2 \\ E_2 &= 1 + \frac{2}{3}E_1 + \frac{1}{3} \times 0 \end{aligned}
联立解得 E_0 = 10。
启发二:DAG vs 环的判据。拿到题目后,首先判断转移图是否有环:
- 若图是 DAG,直接按拓扑序递推
- 若图含环,必须设立未知数,联立方程求解
启发三:自环的缓冲作用。回顾 HH 与 HT 的差异——在 HH 问题中,从状态 1 失败后箭头指向起点 0(万劫不复);在 HT 问题中,从状态 H 失败后箭头指向 H 自身(形成自环缓冲)。拓扑图上的自环是缩短期望步数的关键——失败后回退得越浅,期望越小。
期望解题的拓扑审查清单
在动笔计算前,先对题目进行一次骨架扫描:
- 画节点:系统有多少种本质不同的状态?
- 找同构:能不能通过对称性合并节点?
- 查回路:图里有环吗?有环必须用方程,无环果断递推。
- 判惩罚:失败后是退回原点还是掉入自环缓冲?
尾部求和公式
对于取非负整数值的随机变量 X,有一个非常实用的期望变形公式:
\boxed{E[X] = \sum_{k=1}^{\infty} P(X \ge k)}
证明:将期望的普通定义展开:
\begin{aligned} E[X] &= \sum_{k=1}^{\infty} k \cdot P(X = k) \\ &= \sum_{k=1}^{\infty} \sum_{j=1}^{k} P(X = k) \\ &= \sum_{j=1}^{\infty} \sum_{k=j}^{\infty} P(X = k) \\ &= \sum_{j=1}^{\infty} P(X \ge j) \end{aligned}
直观理解:普通期望公式 E[X] = \sum k \cdot P(X = k) 相当于对概率直方图进行纵向切片。尾部求和公式相当于对同一个直方图进行横向切片积分——被积函数是 X 至少为 k 的累积概率。
例 4(掷骰子最大点数的期望):掷一枚标准六面骰子 n 次,求最大点数的期望值。
设 X 为 n 次中的最大点数。P(X = k) 比较麻烦,但 P(X \ge k) 非常简单:
P(X \ge k) = 1 - P(X \le k - 1) = 1 - \left( \frac{k - 1}{6} \right)^n
由尾部求和公式:
E[X] = \sum_{k=1}^{6} P(X \ge k) = \sum_{k=1}^{6} \left[ 1 - \left( \frac{k - 1}{6} \right)^n \right] = 6 - \frac{0^n + 1^n + 2^n + 3^n + 4^n + 5^n}{6^n}
无需任何组合数合并,直接得到封闭表达式。当 n = 1 时,E[X] = 3.5(均匀分布均值);当 n \to \infty 时,E[X] \to 6。
应用场景识别
当你面对的问题涉及最大值、最小值的期望,或者需要计算 P(X = k) 非常困难但 P(X \ge k) 相对容易时,优先考虑尾部求和公式。这本质上是求和与积分的次序交换。

