Expectation
概述
本文介绍一些概率论的基础概念。
为了简单起见,本文中提到的所有集合都默认是 有限集。如想了解更一般的理论,请阅读任何一本大学概率论课本,或者期待本文的后续更新(如果有这回事的话)。
事件
样本输出、样本空间、随机事件
在一次随机试验 $E$ 中可能发生的不能再细分的结果被称为 样本输出。在随机试验中可能发生的所有样本输出的集合称为 样本空间,用 $\Omega$ 来表示。
也就是说,进行一次随机试验 $E$,其结果一定符合 $\Omega$ 中的恰好一个元素,不可能是零个或多个。例如在一次掷骰子的随机试验中,如果用获得的点数来表示样本输出,那么一共可能出现 $6$ 个样本输出,则样本空间可以表示为 $\Omega={1,2,3,4,5,6}$。
一个 随机事件 是样本空间 $\Omega$ 的子集,它由样本空间 $\Omega$ 中的元素构成,用大写字母 $A, B, C,\ldots$ 表示。例如在掷两个骰子的随机试验中,设随机事件 $A$ 为“获得的点数和大于 $10$”,则 $A$ 是由下面 $3$ 个样本输出组成的集合:$A = { (5,6),(6,5),(6,6)}$。
事件的计算
因为事件在一定程度上是以集合的含义定义的,因此可以把事件当作集合来对待。
和事件:相当于 并集。若干个事件中只要其中之一发生,就算发生了它们的和事件。
积事件:相当于 交集。若干个事件必须全部发生,才算发生了它们的积事件。
概率
定义
古典定义
如果一个试验满足两条:
- 试验只有有限个基本结果;
- 试验的每个基本结果出现的可能性是一样的;
这样的试验便是古典试验。 对于古典试验中的事件 $A$,它的概率定义为 $P(A)=\frac{m}{n}$,其中 $n$ 表示该试验中所有可能出现的基本结果的总数目,$m$ 表示事件 $A$ 包含的试验基本结果数。
统计定义
如果在一定条件下,进行了 $n$ 次试验,事件 $A$ 发生了 $N_A$ 次,如果随着 $n$ 逐渐增大,频率 $\frac{N_A}{n}$ 逐渐稳定在某一数值 $p$ 附近,那么数值 $p$ 称为事件 $A$ 在该条件下发生的概率,记做 $P(A)=p$。
公理化定义
设 $E$ 是随机试验,$\Omega$ 是它的样本空间;再设 $\mathcal{F}$ 是样本空间 $\Omega$ 的幂集的一个非空子集,称为事件空间。对事件空间 $\mathcal{F}$ 的每一个元素(称为事件)$A$ 赋予一个实数,记为 $P(A)$,称为事件 $A$ 的概率。其中:
$\mathcal{F}$ 满足以下条件:
-
$\varnothing \in \mathcal{F}$;
-
若 $A \in \mathcal{F}$,则 $\bar{A} \in \mathcal{F}$;
-
若 $A_n \in \mathcal{F}, n = 1, 2, 3\dots$,则 $\bigcup A_n \in \mathcal{F}$。
简言之,就是事件空间 $\mathcal{F}$ 对其所有元素的补运算、并运算是封闭的,且包含元素 $\varnothing$。
$P$ 是一个从集合到实数的映射,满足以下公理:
-
非负性:对于一个事件 $A$,有概率 $P(A)\in [0,1]$。
-
规范性:样本空间的概率值为 $1$,即 $P(\Omega)=1$。
-
可加性:若 $A\cap B=\varnothing$,则 $P(A\cup B) = P(A)+P(B)$。
由 $(\Omega,\mathcal{F},P)$ 构成的这样的一个系统称为一个 概率空间。
例如在掷一个骰子的随机试验中,如果用获得的点数来表示样本输出,则样本空间可以表示为 $\Omega={1,2,3,4,5,6}$,事件空间可以表示为 $\mathcal{F} = {\varnothing, {1}, {2}, {1,2}, \dots, {1,2,3,4,5,6}}$。设事件 $A$ 表示得到的点数大于 $3$,事件 $B$ 表示得到的点数是偶数,则 $A = {4,5,6}$,$B = {2,4,6}$。
计算
- 广义加法公式: 对任意两个事件 $A,B$,$P(A \cup B)=P(A)+P(B)-P(A\cap B)$
- 条件概率: 记 $P(B|A)$ 表示在 $A$ 事件发生的前提下,$B$ 事件发生的概率,则 $P(B|A)=\dfrac{P(AB)}{P(A)}$(其中 $P(AB)$ 为事件 $A$ 和事件 $B$ 同时发生的概率)。
- 乘法公式:$P(AB)=P(A)\cdot P(B|A)=P(B)\cdot P(A|B)$
- 全概率公式:若事件 $A_1,A_2,\ldots,A_n$ 构成一组完备的事件且都有正概率,即 $\forall i,j, A_i\cap A_j=\varnothing$ 且 $\displaystyle \sum_{i=1}^n A_i=1$,则有 $\displaystyle P(B)=\sum_{i=1}^n P(A_i)P(B|A_i)$。
- 贝叶斯定理:$\displaystyle P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\displaystyle \sum_{j=1}^n P(B_j)P(A|B_j)}$
随机变量
直观地说,一个随机变量,是一个取值由随机事件决定的变量。
如果基于概率的公理化定义,那么一个随机变量——形式化地说——是一个从样本空间 $S$ 到实数集 $\mathbf{R}$(或者 $\mathbf{R}$ 的某个子集)的映射 $X$。如果 $X(A)=\alpha$,你可以直观理解为:当随机实验 $E$ 取结果 $A$ 时,该随机变量取值 $\alpha$。
由此可以看到,“随机变量 $X$ 取值 $\alpha$”(简记为 $X=\alpha$)也对应着一个能实现该命题的单位事件集合,因此它也是一个事件,于是也有与之对应的概率 $P(X=\alpha)$。
独立性
直观地说,我们认为两个东西独立,当它们在某种意义上互不影响。例如,一个人出生的年月日和他的性别,这两件事是独立的;但一个人出生的年月日和他现在的头发总量,这两件事就不是独立的,因为一个人往往年纪越大头发越少。
数学中的独立性与这种直观理解大体相似,但不尽相同。
随机事件的独立性
我们称两个事件 $A,B$ 独立,当 $P(A\cap B)=P(A)P(B)$。
我们称若干个事件 $A_{1\ldots n}$ 互相独立,当对于其中任何一个子集,该子集中的事件同时发生的概率,等于其中每个事件发生概率的乘积。形式化地说:
$$ P\Big(\bigcap\limits_{E\in T} E\Big)=\prod_{E\in T} P(E), \forall T\subseteq {A_1,A_2,\ldots,A_n} $$
由此可见,若干事件 两两独立 和 互相独立 是不同的概念。请注意这一点。
随机变量的独立性
以下用 $I(X)$ 表示随机变量 $X$ 的取值范围。即,如果把 $X$ 看作一个映射,则 $I(X)$ 就是其值域。
我们称两个随机变量 $X,Y$ 独立,当 $P\big((X=\alpha)\cap(Y=\beta)\big)=P(X=\alpha)P(Y=\beta),\forall \alpha\in I(X),\beta\in I(Y)$,即 $(X,Y)$ 取任意一组值的概率,等于 $X$ 和 $Y$ 分别取对应值的概率乘积。
我们称若干个随机变量 $X_{1\ldots n}$ 互相独立,当 $(X_1,\ldots,X_n)$ 取任意一组值的概率,等于每个 $X_i$ 分别取对应值的概率乘积。形式化地说:
$$ P\Big(\bigcap\limits_{i=1}^n X_i=F_i\Big)=\prod\limits_{i=1}^n P(X_i=F_i),\forall F_{1\ldots n} \text{ s.t. } F_i\in I(X_i) $$
由此可见,若干随机变量 两两独立 和 互相独立 是不同的概念。请注意这一点。
期望
定义
如果一个随机变量的取值个数有限(比如一个表示骰子示数的随机变量),或可能的取值可以一一列举出来(比如取值范围为全体正整数),则它称为 离散型随机变量。
形式化地说,一个随机变量被称为离散型随机变量,当它的值域大小 有限 或者为 可列无穷大。
一个离散型随机变量 $X$ 的 数学期望 是其每个取值乘以该取值对应概率的总和,记为 $E(X)$。
$$ E(X)=\sum\limits_{\alpha \in I(X)} \alpha\cdot P(X=\alpha)=\sum\limits_{\omega\in S}X(\omega)P(\omega) $$
其中 $I(X)$ 表示随机变量 $X$ 的值域,$S$ 表示 $X$ 所在概率空间的样本集合。
请读者自行验证连等式中的第二个等号。
???+note "连续型随机变量的期望" 如果一个随机变量的取值不可列(比如值域为 $\mathbb{R}$),则称其为 连续型随机变量。 若有一个连续型随机变量 $x$ 取值为 $\xi$ 的概率为 $p(\xi)$,则定义其期望 $E(x)$ 为:
$$
E(x)=\int^{+\infty}_{-\infty}xp(x)\mathrm{d}x
$$
性质
- 全期望公式:$E(Y)=\sum\limits_{\alpha \in I(X)} P(X=\alpha)E(Y|(X=\alpha))$,其中 $X,Y$ 是随机变量,$E(Y|A)$ 是在 $A$ 成立的条件下 $Y$ 的期望(即“条件期望”)。可由全概率公式证明。
- 期望的线性性: 对于任意两个随机变量 $X,Y$(不要求相互独立),有 $E(X+Y)=E(X)+E(Y)$。利用这个性质,可以将一个变量拆分成若干个互相独立的变量,分别求这些变量的期望值,最后相加得到所求变量的值。
- 乘积的期望: 当两个随机变量 $X,Y$ 相互独立时,有 $E(XY)=E(X)E(Y)$。
例题
NOIP2016 换教室(概率期望 DP)