随机事件与概率

事件及其运算

试验与事件

我们把按照一定的想法去作的事情称为随机试验，随机试验的简称是试验。样本空间 \Omega 指明随机现象所有可能出现的结果。

具体的，一个随机现象中可能发生的不能再细分的结果被称为样本点，所有样本点的集合称为样本空间，通常用 \Omega 来表示。

二维样本空间的列举，表格法：

	1	2	3	4	5	6
1	(1, 1)	(1, 2)	(1, 3)	(1, 4)	(1, 5)	(1, 6)
2	(2, 1)	(2, 2)	(2, 3)	(2, 4)	(2, 5)	(2, 6)
3	(3, 1)	(3, 2)	(3, 3)	(3, 4)	(3, 5)	(3, 6)
4	(4, 1)	(4, 2)	(4, 3)	(4, 4)	(4, 5)	(4, 6)
5	(5, 1)	(5, 2)	(5, 3)	(5, 4)	(5, 5)	(5, 6)
6	(6, 1)	(6, 2)	(6, 3)	(6, 4)	(6, 5)	(6, 6)

概率空间是概率论的基础，概率的严格定义基于这个概念。因为在高中引入这个概念显得过于突兀，且没有实际用处，因此这里略过，详细请仔细查阅百科。

一个事件是样本空间 \Omega 的任意子集，又分为：

一个随机事件是样本空间 \Omega 的非空真子集。
一个必然事件是样本空间 \Omega 本身。
一个不可能事件是一个空集 \varnothing。
一个基本事件是样本空间 \Omega 的一个大小为 1 的子集。

由此可知，事件是一个由若干样本点构成，用大写字母 A, B, C, \cdots 表示。对于一个随机现象的结果 \omega 和一个随机事件 A，我们称事件 A 发生了当且仅当 \omega \in A。

在概率论中，随机事件（或简称事件）指的是随机试验结果的一个子集，也就是样本空间中的一个子集。简单来说，在一次随机试验中，某个特定事件可能出现也有可能不出现；但当试验次数增多，我们可以观察到某种规律性的结果，就是随机事件。随机事件有其出现的概率。基本上，只要样本空间是有限的，则在样本空间内的任何一个子集合，都可以被称为是一个事件。然而，当样本空间是无限的时候，特别是不可数之时，就常常不能定义所有的子集为随机事件了。

例如：掷一次骰子得到的点数是一个随机现象，其样本空间可以表示为 \Omega=\{1,2,3,4,5,6\}。设随机事件 A 为「获得的点数大于 4」，则 A = \{ 5, 6 \}。若某次掷骰子得到的点数 \omega = 3，由于 \omega \notin A，故事件 A 没有发生。

事件的运算

由于我们将随机事件定义为了样本空间 \Omega 的子集，故我们可以将集合的运算（如交、并、补等）移植到随机事件上。记号与集合运算保持一致。

并（和）事件：事件的并 A \cup B 也可记作 A + B，表示至少有一个事件发生。
交（积）事件：事件的交 A \cap B 也可记作 AB，表示事件全部发生。

对立事件及事件的差：

事件“非 A”称为 A 的对立事件，记作 \bar A。
对立事件是相互的：\bar{\bar A}=A。
在一次试验中，A 和 \bar A 互斥，且至少一个发生。即 A\bar A=\varnothing,A+\bar A=\Omega。
事件 A 同事件 B 的差表示 A 发生而 B 不发生的时间，记作 A\backslash B 或 A-B（后者尤其是在电子排版更为方便）。
容易知道，A-B=A\cap\bar B。

事件的运算规律与集合运算规律相同。

A\cup B=B\cup A

A\cup(B\cup C)=(A\cup B)\cup C

A\cup A=A,A\cup\bar A=\Omega,A\cup\Omega=\Omega,A\cup\varnothing=A

类似的，

A\cap B=B\cap A

A\cap(B\cap C)=(A\cap B)\cap C

A\cap A=A,A\cap\bar A=\varnothing,A\cap\Omega=A,A\cap\varnothing=\varnothing

还有分配率和对立事件，这些公式极为常用：

A\cap(B\cup C)=(A\cap B)\cup(A\cap C)

A\cup(B\cap C)=(A\cup B)\cap(A\cup C)

\overline{A\cup B}=\bar A\cap\bar B,\overline{A\cap B}=\bar A\cup\bar B

事件的互不相容性：A \cap B = \varnothing，即事件 A 和 B 不能同时发生，记作 A,B 互斥。多个事件互不相容是指两两互不相容。等概完全事件组定义中“互相排斥”也是两两互不相容的意思。

辨析互斥和对立

辨析概率为 0 与不可能事件，概率为 1 与必然事件。这是概率论中极易混淆的核心概念，必须严格区分集合论层面与概率论层面的概念：

互斥事件的严格定义是 A \cap B = \varnothing（交集为空集），而非 P(A \cap B) = 0。
对立事件必须同时满足 A \cap B = \varnothing 且 A \cup B = \Omega。

常见误解：

误解	正确理解
P(A \cap B) = 0 \implies A \cap B = \varnothing	P(A \cap B) = 0 只说明交集是零概率事件，但交集可能非空
P(A \cup B) = 1 \implies A \cup B = \Omega	P(A \cup B) = 1 只说明并集是几乎必然事件，但并集可能不等于全集

关键区分：

概念	集合层面	概率层面	含义
不可能事件	A = \varnothing	P(A) = 0	逻辑上绝对不发生
零概率事件	A \neq \varnothing	P(A) = 0	集合存在但测度为 0，几乎不可能（Almost Never）
必然事件	A = \Omega	P(A) = 1	逻辑上绝对发生
概率为 1 事件	A \neq \Omega	P(A) = 1	测度为 1 但未覆盖全集，几乎必然（Almost Surely）

经典反例：设样本空间 \Omega = [0,1]（均匀分布），令

A = [0, 0.5]
B = [0.5, 1]

则：

P(A) = 0.5,\ P(B) = 0.5，满足 P(A)+P(B)=1
P(A\cup B)=1
但 A \cap B = \{0.5\} \neq \varnothing，故 A,B 不是对立事件

根本原因：在连续空间中，单点集的概率为 0 但非空。概率为 0 不等于空集，概率为 1 不等于全集，这是测度论的基本认知。

适用边界：仅在古典概型（样本点有限且每个样本点概率严格大于 0）中，概率极值才等价于集合极值。一旦涉及连续空间或无限样本点，必须使用测度语言描述。

概率及其运算

概率：事件是否发生无法预知，但是其可能性大小可以定量描述。比如，投掷一枚均匀硬币，正面朝上和正面朝下可能性大小相同。投掷两枚均匀硬币，同时为正面和同时为背面可能性大小相同；一个正面一个背面的可能性比都是正面的可能性大。概率用来定量描述随机事件发生可能性大小。概率有“频率定义”、“主观定义”、“公理化定义”。

概率（旧称几率），是对随机事件发生之可能性的度量，为数学概率论的基本概念；概率的值是一个在 0 到 1 之间的实数，也常以百分数来表示。概率论是研究概率、随机性及不确定性等现象的数学分支。概率论主要研究对象为随机事件、随机变量以及随机过程。对于随机事件是不可能准确预测其结果的，然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及轮盘等，会呈现出一定的、可以被用于研究及预测的规律，两个用来描述这些规律的最具代表性的数学结论分别是大数定律和中心极限定理。
随机性这个词是用来表达目的、动机、规则或一些非科学用法的可预测性的缺失。一个随机的过程是一个不定因子不断产生的重复过程，但它可能遵循某个概率分布。术语随机经常用于统计学中，表示一些定义清晰的、彻底的统计学属性，例如缺失偏差或者相关。随机与任意不同，因为“一个变量是随机的”表示这个变量遵循概率分布。而任意在另一方面又暗示了变量没有遵循可限定概率分布。概率常用来量化对于某些不确定命题的想法，这些概念可以形成概率论中的数学公理。应用到具体问题，“概率”常常被用来视作是对某一事件是否发生（过）的“推测”。这种涵义下，在宏观世界（非量子力学情况）中，概率来源于信息的缺失，有效信息越多，对某一事件发生的把握度（概率）就越大，直至“必然发生”——例如理论上知道抛一枚硬币时的位置、受力情况，便可以计算出落下时正面还是反面，所知参数越精确，算得概率就能越接近 1。但“混沌效应”仍然会制约收入概率的大小。
在牛顿力学的概念，决定论的世界中，若所有条件皆是已知，都没有任何概率性的成分在内（拉普拉斯的恶魔），不过有可能一些系统对初始条件敏感，敏感程度甚至到超过可能量测的范围。以俄罗斯轮盘为例，若手的施力、出力的时间等信息已知，轮盘最后停止的位置是可以计算而得的，不过此时需要知道轮盘的惯量及摩擦系数，球的质量、光滑度及圆度，出力过程中手速度的变化等；此时，相较于用牛顿力学的方式分析，概率性的描述可能更适合描述重复玩数次俄罗斯轮盘的结果。科学家发现在气体动力论中也有类似的情形，系统理论上是确定的，但因为气体分子个数约和阿伏伽德罗常数量级相当，因此也只能用概率性的描述。
在描述量子理论时一定会用到概率论，二十世纪初期，物理学界有一个革命性发现，所有亚原子层级的物理过程有随机性，依循量子力学。物理的波函数是确定的，是数个状态的叠加，但根据哥本哈根诠释，观察会带来波函数坍缩，因此只能观察到其中一个状态。不过这种缺乏决定论的观点未受到所有人的同意，爱因斯坦在给马克斯·玻恩的信上提到“我相信上帝不会玩骰子。”；而发现波函数的埃尔温·薛定谔认为量子力学只是内部决定论状态的统计近似。在近代的诠释中，量子退相干有相当的概率性质。

条件组 S 大量重复实现时，事件 A 发生的次数，称为频数。长期经验积累所得的、所谓某事件发生的可能性大小，就是这个“频率的稳定值”。

在不变的一组条件 S 下，重复做 n 次实验。记 \mu 是 n 次试验中事件 A 发生的次数。当试验的次数 n 很大时，如果频率 \mu/n 稳定地在某一数值 p 的附近摆动，而且一般说来随着试验次数的增多，这种摆动的幅度越变越小，则称 A 为随机事件，并称数值 p 为随机事件 A 在条件组 S 下发生的概率，记作 P(A)=p。

定义简述：频率具有稳定性的事件叫做随机事件，频率的稳定值叫做该随机事件的概率。随机事件简称事件。实际中遇到的事件一般都是随机事件。概率的频率定义是近似值。许多测量值都是近似值，所以不必因为只能求得近似值而怀疑真实概率的存在。

概率的主观定义：一个事件的概率是人们根据已有的知识和经验对该事件发生可能性所给出的个人信念，这种信念用 [0, 1] 中的一个数来表示，可能性大的对应较大的数。主观概率是当事人对事件作了详细考察并充分利用个人已有的经验形成的“个人信念”，而不是没有根据的乱说一通。也需要谨慎对待。

概率公理：

0\le P(A)\le1(A\subset\Omega)。
P(\Omega)=1,P(\varnothing)=0。
A\cap B=\varnothing\implies P(A\cup B)=P(A)+P(B)。

推论：

若 A\subset B，则 P(A)\le P(B)（概率的单调性）。
若 A 与 B 对立，则 P(A)+P(B)=1。
容斥原理：P(A\cup B)=P(A)+P(B)-P(A\cap B)。

其中上面第二条就是容斥原理的推论。

大数定律：在数学与统计学中，大数定律又称大数法则、大数律，是描述相当多次数重复实验的结果的定律。根据这个定律知道，样本数量越多，则其算术平均值就有越高的概率接近期望。

大数定律说明了一些随机事件的均值的长期稳定性。人们发现，在重复试验中，随着试验次数的增加，事件发生的频率趋于一个稳定值；人们同时也发现，在对物理量的测量实践中，测定值的算术平均也具有稳定性。比如，我们向上抛一枚硬币，硬币落下后哪一面朝上是偶然的，但当我们上抛硬币的次数足够多后，达到上万次甚至几十万几百万次以后，我们就会发现，硬币每一面向上的次数约占总次数的二分之一，亦即偶然之中包含着必然。

例如，抛掷一颗均匀的 6 面的骰子，每次扔出骰子后，出现点数的期望是 3.5 根据大数定理，如果多次抛掷骰子，随着抛掷次数的增加，平均值（样本平均值）应该接近 3.5，根据大数定理，在多次伯努利实验中，实验频率最后收敛于理论推断的概率值，对于伯努利随机变量，理论推断的成功概率就是期望，而若对 n 个相互独立的随机变量的平均值，频率越多则相对越精准。

例如硬币投掷即伯努利实验，当投掷一枚均匀的硬币，理论上得出的正面向上的概率应是 1/2。因此，根据大数定理，正面朝上的比例在相对“大”的数字下，“理应”接近为 1/2，尤其是正面朝上的频率在 n 次实验（n 接近无限大时）后应几近收敛到 1/2。

即使正面朝上（或背面朝上）的比例接近 1/2，几乎很自然的正面与负面朝上的绝对差值（absolute difference，差值范围）应该相应随着抛掷次数的增加而增加。换句话说，绝对差值的概率应该是会随着抛掷次数而接近于 0。直观的来看，绝对差值的期望会增加，只是慢于抛掷次数增加的速度。

下面是一些概率的“分类”的定义。考虑到读者阅读下面的内容，会感到一定的知识割裂，因此这里先给出一些较为普适的说法。

请注意，集合、事件、概率等等，都是有公理化的定义的。由于高中阶段并未涉及，且高中主要考查的是应用，而非理解，我们也不涉及这方面的内容。

古典概型

在概率论早期实践中，由于涉及到的随机现象都比较简单，具体表现为样本空间 \Omega 是有限集，且直观上所有样本点是等可能出现的，因此人们便总结出了下述定义（称为传统概率模型或古典概率模型或拉普拉斯概率模型）：

如果一个随机现象满足（1）只有有限个基本结果（2）每个基本结果出现的可能性是一样的，那么对于每个事件 A，定义它的概率为：

P(A)=\dfrac{|A|}{|\Omega|}

最经典的例子是，掷硬币、掷骰子。或者用 |\cdot| 表示对随机事件（一个集合）大小的度量：

P(A)=\dfrac{|A|}{|\Omega|}

古典概型做题模板：

记事件 A=“……”。
\Omega=\{\dots\} 共几个。
A=\{\dots\} 共几个。
P(A)=\dfrac{|A|}{|\Omega|}。

后来人们发现这一定义可以直接推广到 \Omega 无限的一部分情景中，于是就有了所谓几何概型。

在古典概型中，最应当注意的是一致的可能性，例如扔两次硬币，一正一反就不应当是一个于两正、两反等概率的事件。

等概完备事件组：称一个事件组 A_1, A_2, \dots, A_n 为一个等概完备事件组，如果它具有下列三条性质：

等可能性：A_1, A_2, \dots, A_n 发生的机会相同；
完备性（除此之外，不可能有别的结果）：在任一次试验中，A_1, A_2, \dots, A_n 至少有一个发生；
互不相容性（它们是互相排斥的）：在任一次试验中，A_1, A_2, \dots, A_n 至多有一个发生。

等概完备事件组也称“等概基本事件组”，其中任一事件 A_i(i = 1, 2, \dots , n) 称为基本事件。

几何概型

在这个模型下，随机实验所有可能的结果是无限的，并且每个基本结果发生的概率是相同的。几何概型定义，概率 = 有利区域测度 \div 总区域测度。当所求解问题可以转化为某种随机分布的特征数，比如随机事件出现的概率，或者随机变量的期望，就可以使用蒙特卡罗法。

概型	概率公式	核心操作	样本空间特征
古典概型	P(A) = \dfrac{\|A\|}{\|\Omega\|}	计数（有限个样本点）	有限集，每个点概率 \ge 0
几何概型	P(A) = \dfrac{\mu(A)}{\mu(\Omega)}	测度（长度/面积/体积）	连续无限，每个点概率为 0

通过大量随机抽样的方法，以随机事件出现的频率估计其概率，或者以抽样的数字特征估算随机变量的数字特征，并将其作为问题的解。

经常的，我们会因为概率相同犯错误，这也导致了 Bertrand（伯特兰）悖论等问题的产生，于是也就诞生了概率的公理化描述。

三大经典陷阱与破解	古典视角误区	几何真相	破解要点
陷阱一：边界虚无	纠结开闭区间、边界是否包含	单点测度为 0，边界不影响概率	闭区间/开区间结果相同，随意决定边界归属简化计算
陷阱二：变量畸变	认为均匀在变换后仍保持	x 均匀 \cancel\implies f(x) 均匀	永远在题目给定的均匀变量空间中画图求测度
陷阱三：贝特朗悖论	随机有唯一自然含义	随机必须明确均匀测度的定义	审题：是等弧长？等距离？还是等面积？

贝特朗悖论典型案例：在圆内随机作弦，求长度大于内接正三角形边长的概率。三种随机假设得三种答案（1/2, 1/3, 1/4）。根本原因：题目未指定等可能对应的测度（弧长/半径/面积）。考试中题目会明确或隐含说明。

实战通用框架（SOP）：

寻根：锁定均匀变量（Who is random?）。题目中哪个量是等可能的？是坐标 x？时间 t？还是角度 \theta？
升维：确定测度空间（What is the measure?）。一维→数轴 (长度)，二维→平面 (面积)，三维→立体 (体积)。
翻译：将样本空间 \Omega 和目标事件 A 翻译为几何区域（解不等式，画图）。
裁决：计算几何测度比 \dfrac{\mu(A)}{\mu(\Omega)}。

测度（Measure）：在一维空间是长度，二维空间是面积，三维空间是体积。

约会问题：甲乙约定 6 点到 7 点见面，先到者等 15 分钟即离去。求能见面的概率。

陷阱：误以为 P = \dfrac{15}{60} = \dfrac{1}{4}。错因：忽略两人独立到达的二维随机性。

正确几何解法：

设甲到时间 x，乙到时间 y，0 \le x,y \le 60。
样本空间：边长为 60 的正方形（面积 3600）。
能见面条件：|x - y| \le 15（两条直线间的带状区域）。
有利面积：3600 - 30 \times 30 = 1575。
概率：\dfrac{1575}{3600} = \dfrac{7}{16}。

思维准则：

抛弃计数本能，建立测度直觉：先问维度，再定量纲（长度/面积/体积）。
边界可随意，闭开不影响：边界测度为 0，为计算方便可自由选择。
遇到随机必追问：哪个变量均匀？未说明时，默认最自然的测度（如圆内随机点默认面积均匀）。
复杂区域用积分：不规则区域用定积分求面积比。
直觉不符则升维：若结果与一维直觉冲突，检查是否忽略了随机自由度。

概率的运算

概率的加法公式：

如果事件 A, B 互不相容，则 P(A \cup B) = P(A) + P(B)
其合理性和必要性可以用概率的频率定义解释。
推论：P(A) + P(\bar A) = P(A \cup \bar A) = P(\Omega) = 1。
从而得：P(A) = 1 − P(\bar A), P(\bar A) = 1 − P(A)。
这样，一个事件的概率难计算而其对立事件的概率容易计算时可计算。

概率的有限可加性：设 n 个事件 A_1, A_2, \dots , A_n 互不相容，则

P(A_1 \cup A_2 \cup \dots \cup A_n) = P(A_1) + P(A_2) + · · · + P(A_n)

可以从上面的公式归纳证明。

根据容斥原理，对任意两个事件 $ A, B$, 有

P(A \cup B) = P(A) + P(B) − P(A\cap B)

证明可以由韦恩图，更加逻辑的推理也有，但是不必要，高中阶段不太常涉及这种基础的证明。

多个事件的并和交：设 A_1,A_2,\dots,A_n 是一系列事件，事件 B 表示其中至少有一个发生，C 表示全都发生，那么称 B 为所有事件的并，C 为所有事件的交，记为：

B=\bigcup_{i=1}^nA_i,C=\bigcap_{i=1}^nA_i

无穷个事件的并和交：设 A_1, A_2, \dots 是一系列事件，事件 B 表示其中至少有一个发生，C 表示全都发生，那么称 B 为所有事件的并，C 为所有事件的交，记为：

B=\bigcup_{i\ge 1}A_i,C=\bigcap_{i\ge 1}A_i

概率的完全可加性：设 A_1, A_2, \dots 是一系列事件，如果 A_1, A_2, \dots 两两互不相容，则

P\left(\bigcup_{i\ge 1} A_i\right)=\sum_{i\ge 1}P(A_i)

由实践经验得出，不能证明。

条件概率和独立性

条件概率

当某事件已经发生时，一些随机事件的概率会因为已知信息的增加发生变化。

若已知事件 A 发生，在此条件下事件 B 发生的概率称为条件概率，记作 P(B|A)。

在样本空间中，若事件 A 满足 P(A) > 0，则条件概率 P(\cdot|A) 定义为：

P(B|A) = \frac{P(AB)}{P(A)}

条件概率有时候也称为后验概率，与先验概率相对。

P(\Omega|A)=1.
若 B,C 互斥（BC=\varnothing）则：

P(B\cup C)=P(B)+P(C)

P(B\cup C|A)=P(B|A)+P(C|A)

P(\bar B|A)=1-P(B|A)

条件概率的计算有还有三个公式，我们详细讲解。

概率乘法公式：若 P(A) > 0，则对任意事件 B 都有

P(AB) = P(A)P(B|A)

注意到这也就是条件概率的定义式。

事件的独立性

独立事件：A 发生不影响 B 而 B 发生也不影响 A。

P(AB)=P(A)P(B)

根据这个式子，如果 A,B 独立，那么 A 及其补集，B 及其补集也应当都是独立的。

在条件概率中，若 A,B 独立：

P(A|B)=\dfrac{P(AB)}{P(B)}=P(A)

P(B|A)=\dfrac{P(AB)}{P(A)}=P(B)

也可以用条件概率推导独立，这是 iff 的。

独立性的直观解释：事件 A 是否发生不影响事件 B 的发生概率，事件 B 是否发生也不影响事件 A 的发生概率。

对立事件与独立：若四对事件 AB,A\bar B,\bar AB,\bar A\bar B 中有一对独立，则另外三对也独立。即这四对事件或者都独立，或者都不独立。

对于多个事件 A_1, A_2, \cdots, A_n，我们称其独立，当且仅当对任意一组事件 \{ A_{i_k} : 1 \leq i_1 < i_2 < \cdots < i_k \leq n \} 都有：

P( A_{i_1}A_{i_2} \cdots A_{i_r} ) = \prod_{k=1}^{r} P(A_{i_k})

对于多个事件，一般不能从两两独立推出这些事件独立。考虑以下反例：有一个正四面体骰子，其中三面被分别涂成红色、绿色、蓝色，另一面则三色皆有。现在扔一次该骰子，令事件 A,B,C 分别表示与桌面接触的一面包含红色、绿色、蓝色。

不难计算：

P(A) = P(B) = P(C) = \frac{1}{2}

P(AB) = P(BC) = P(CA) = P(ABC) = \frac{1}{4}

显然 A, B, C 两两独立，但由于 P(ABC) \neq P(A)P(B)P(C)，故 A, B, C 不独立。

全概率公式

全概率公式，也称全概公式、先验模型，是在先决条件下，推导下一过程的概率。

全概率公式指出，对于 A,B 两组对立事件，

P(B)=P(A)P(B|A)+P(\bar A)P(B|\bar A)

可以理解为，A 发生后 B 发生，和 A 不发生但是 B 发生概率之和。

In general，若一组事件 A_1, \cdots, A_n 构成 \Omega 的一个划分（两两不交且和为 \Omega，且对每个 i 有 P(A_i)>0），则对任意事件 B 都有：

P(B) = \sum_{i=1}^{n} P(A_i)P(B|A_i)

Bayes 公式

贝叶斯公式，有时也叫做，逆概公式、后验模型，是在结果已经发生的前提下，推导其 prev 的概率。

贝叶斯定理（也成贝氏定理）指出，若 P(A),P(B)>0，则：

P(A|B)=\dfrac{P(AB)}{P(B)}=\dfrac{P(A)P(B|A)}{P(B)}

可以理解为将中间的 P(AB) 用概率乘法公式展开，向左向右写出。

也可以将 P(A) 提出来，剩余的部分 P(B|A)/P(B) 称为标准似然度。

带入全概率公式，于是有：

P(A|B)=\dfrac{P(A)P(B|A)}{P(A)P(B|A)+P(\bar A)P(B|\bar A)}

一般来说，设可能导致事件 B 发生的原因为 A_1, A_2, \cdots, A_n（同样构成了互斥），则在 P(A_i) 和 P(B|A_i) 已知时可以通过全概率公式计算事件 B 发生的概率。但在很多情况下，我们需要根据「事件 B 发生」这一结果反推其各个原因事件的发生概率。

P(A_i|B) = \frac{P(A_iB)}{P(B)} = \frac{P(A_i)P(B|A_i)}{\sum_{j=1}^{n} P(A_j)P(B|A_j)}

概率的应用

条件概率谬论

条件概率的谬论是假设 P(A|B) 大致等于 P(B|A)。

根据 Bayes 公式：

P(A)P(B|A)=P(B)P(A|B)

最经典的例子是患病概率，考虑到灵敏度、特异度等因素，本文不予讲解，详见 Wikipedia。

Polya 罐子模型

赛制问题

关于是否有平局：

无平局情况：在没有平局的零和博弈中，“甲赢”和“乙赢”是对立事件。在数学语言中，引入多余的字母 B_i 会增加思维的内存占用（你需要不断在大脑里翻译 B_i 就是甲输）。使用 \bar{A_i} 能在代数演算时直接触发 P(\bar{A_i}) = 1 - P(A_i) 的本能，这就是“降维”。

解：设事件 A_i 表示“在第 i 轮比赛中甲获胜”（i=1, 2, 3...），则 \bar{A_i} 表示“在第 i 轮比赛中乙获胜”。因为各轮比赛结果相互独立，所以甲以“2 胜 1 负”赢得比赛的概率为：P = P(A_1 A_2 \bar{A_3}) + P(A_1 \bar{A_2} A_3) + P(\bar{A_1} A_2 A_3)= \dots （代入数据计算）。
有平局情况：当出现胜、负、平三种状态时，它们两两互斥且和事件为必然事件（即构成样本空间的一个划分）。此时应设 A_i, B_i, C_i。

解：设事件 A_i, B_i, C_i 分别表示“在第 i 轮比赛中甲获胜、乙获胜、平局”（i=1, 2, 3...）。显然，对于任意 i，事件 A_i, B_i, C_i 两两互斥，且 P(A_i) + P(B_i) + P(C_i) = 1。设事件 M 为“甲经过三轮比赛积 5 分”，由于胜得 3 分，平得 1 分，负得 0 分，故甲必须取得“1 胜 2 平”，则 P(M) = P(A_1 C_2 C_3 \cup C_1 A_2 C_3 \cup C_1 C_2 A_3)= P(A_1)P(C_2)P(C_3) + P(C_1)P(A_2)P(C_3) + P(C_1)P(C_2)P(A_3)= \dots。

在这一部分，多轮的，基本上就是枚举硬解，对于更复杂的问题，我们会在马尔科夫链部分详细讲解。

关于公平性问题，一般而言，给了更多机会的赛制，对于高水平选手而言越有利、越公平。

Bradley-Terry 模型：[TODO]

分布的深入理解

高中数学中的概率统计部分，特别是二项分布和超几何分布，确实被降维处理成了基于古典概型的组合数学应用题。这种处理方式虽然能够应付大多数考试题目，但存在一些认知盲区，如果完全忽略概率论的思维，只把它们当作排列组合的变体，可能会在以下几个方面遇到阻力或思维瓶颈。

二项分布的核心假设是独立重复试验（有放回抽样，或者总体无穷大）。每一次试验的概率 p 都不受上一次影响。
超几何分布的核心假设是不放回抽样（有限总体）。每一次抽取都会改变下一次抽取的条件概率。

在遇到复杂的应用题时，如果题目没有明确说明有放回还是无放回，只用组合思维容易陷入混乱：到底分母是 N^n 还是 C_N^n？关键在于判断独立性第二次发生这件事的概率，是否受第一次结果的影响？如果不受影响，就是二项分布；受影响，就是超几何分布。

二项分布描述的是进行 n 次相互独立、每次成功概率都等于 p 的伯努利试验，随机变量 X 表示成功次数。其概率质量函数为：

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

其中 \binom{n}{k} 来自选出哪 k 次成功的计数；而 p^k(1-p)^{n-k} 来自概率乘法结构。每一种成功位置排列概率相同，共有 \binom{n}{k} 种。

超几何分布描述的是：总体大小 N，其中有 K 个成功类，不放回抽取 n 个，X 为抽到成功的个数。其概率质量函数为：

P(X=k)=\frac{\dbinom{K}{k}\dbinom{N-K}{n-k}}{\dbinom{N}{n}}

这几乎就是有利子集数与全部子集数之比，正是组合计数最擅长的。超几何分布强调不放回抽取会导致每次成功概率会发生变化。

高中课本推导二项分布期望 E(X)=np 时，通常是用 \sum k \cdot C_n^k p^k (1-p)^{n-k} 进行复杂的代数变形。这让学生觉得期望只是一个算出来的加权平均数。

其实在大学概率论中，可以使用指示变量法求解。令 X_i=\mathbf 1\{\text{第 }i\text{ 次成功}\}，则 X=\sum_{i=1}^n X_i。由于期望具有线性性质，E[X]=\sum E[X_i]=np。若独立，方差 \mathrm{Var}(X)=\sum \mathrm{Var}(X_i)=np(1-p)。

对于超几何分布，哪怕是不放回抽样，期望的线性性质依然成立。因此超几何分布的期望公式形式上和二项分布非常像：

E[X]=n\frac{K}{N}

而方差为：

\mathrm{Var}(X)=n\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}

这里多出的 \frac{N-n}{N-1} 常被称作有限总体修正，直觉解释是不放回让抽样之间出现负相关，波动会更小。

当总数 N 很大时，超几何分布可以用二项分布近似。从信息的角度看，当总体有几亿条鱼时，捞走一条对整个池塘中鱼的比例影响微乎其微，此时不放回在数学上等价于有放回。在处理大样本抽样的题目时，可以使用二项分布进行近似以简化计算。

随机变量概念的重视：随机变量是一个函数，它把现实世界的结果映射到实数。如果把 X 仅仅看作是一个待求的未知数或符号，会影响后续学习。

重定义轻公式：做题前先判断是哪种分布，判据不是能不能用组合数，而是试验是否独立。
理解期望的线性：理解为什么 E(X)=np，不仅仅是因为公式推导，而是因为 X 是 n 个独立的伯努利试验的总和。
不要把概率当成数数：组合数只是计算离散型概率的工具，而不是概率的本质。概率的本质是对不确定性的度量。

当以后学到正态分布等连续型分布时，会非常痛苦。因为连续型分布不能用组合数数格子，概率不再是个数之比，而是面积（积分）。过于依赖组合数学的数数思维，一旦进入连续概率领域，思维模型就会崩塌。

生日悖论与密码学

利用生日悖论可以直观感受很多密码学的经典问题。

信息熵

信息熵描述了存储数据所占用的空间下限，若实际可用的空间低于这个下限则必然损失信息。

对随机变量 X，定义信息熵为：

H(X)=-\sum_{x}P(X=x)\log_2 P(X=x)

定义中对数底数为 2 是因为计算机中存储的信息每位只有 2 种取值：0 和 1。

例如设 X 服从 \{1,2,\dots,n\} 上的均匀分布，则其信息熵为：

H(X)=-\sum_{i=1}^n\frac{1}{n}\log_2\frac{1}{n}=\log_2 n

所以我们至少需要 \log_2 n 位来存储 1 到 n 的整数。

RainPPR, Bot