关于概率分布

最近春节在家闲来无事, 加上冠状病毒肆虐, 更无法外出活动. 于是随便捡起一本 TensorFlow 机器学习的书看了起来. 期间发现很多关于数学的知识, 比如映射, 导数, 梯度, 极值, 回归, 分布, 全局最优与局部最优解等.

首先来整理一下关于分布的内容, 从大学期间接触过的熟悉的入手.

概率分布, 伯努利分布, 0-1 分布, 两点分布, 二项分布, 泊松分布, 多项分布, β 分布, 狄利克雷分布, 正态分布, 高斯分布, 标准正态分布, 伽马分布, $\Gamma 分布$, 卡方分布, $\chi^2分布$, 指数分布, 随机分布, 超几何分布, 均匀分布, 核心分布, 聚集分布等.

伯努利分布

伯努利分布(Bernoulli Distribution) 又称为 0-1分布 或 两点分布, 是离散型概率分布.

了解伯努利分布之前, 需要先了解伯努利试验, 它是只有两种可能结果的单次随机试验, 即对于一个随机变量 X 而言:

$$
P=\begin{cases}
p,\quad x = 1 \\
1-p,\quad x = 0
\end{cases}
\quad \quad p ∈ (0,1)
$$

进行一次伯努利试验, 成功 (X=1) 概率为 p, 失败 (X=0) 概率为 1-p, 则称随机变量 X 服从伯努利分布.

概率质量函数

$$f(x) = p^x(1-p)^{1-x}$$

期望与方差

$$EX=p, DX=p(1-p)$$

二项分布

二项分布(Binomial Distribution), 是离散型概率分布.

将一个伯努利实验独立重复地进行 n 次, 则称这一串重复的独立试验为 n 重伯努利试验. 二项分布 是 n 重伯努利试验 成功次数 X 的离散概率分布.

$$X∼B(n,p)$$

概率质量函数

$$P{X=k}=C_n^kp^k(1−p)^{n−k},\quad k=0,1,2,…,n$$

二项分布名称因为推导过程中涉及牛顿提出的二项式定理:

$$\sum_{k=0}^{n}P{X=k} = \sum_{k=0}^{n}C_n^kp^k(1−p)^{n−k} = [p + (1-p)]^n = 1$$

其中二项式定理为:

$$(x+y)^n = \sum_{k=0}^{n}C_n^kx^ky^{n-k}$$

泊松分布

泊松分布(Poisson Distribution) 是离散概率分布.

参数 λ 是单位时间(或单位面积)内随机事件的平均发生次数. 泊松分布适合于描述单位时间内随机事件发生的次数.

概率质量函数

$$P(X=k) = \frac{λ^k}{k!}e^{-λ} \quad k=0,1,…$$

期望与方差

$$EX=λ, DX=λ$$

当二项分布的 n 很大而 p 很小时, 泊松分布可作为二项分布的近似, 其中 λ 为 np. 通常当 n≧20, p≦0.05 时, 就可以用泊松公式近似得计算.

正态分布, 标准正态分布

正态分布(Normal Distribution) 又称为高斯分布(Gaussian Distribution)) 或者 常态分布, 是连续型概率分布.

随机变量 X 服从一个数学期望为 μ、方差为 $σ^2$ 的正态分布, 记为 $N(μ, σ^2)$.

正态分布的概率密度函数

$$f(x)=\frac{1}{σ\sqrt{2π}}e^{-\frac{(x-μ)^2}{2σ^2}}$$

其概率密度函数为正态分布的期望值 μ 决定了其位置, 其标准差 σ 决定了分布的幅度. 当 μ = 0, σ = 1 时的正态分布是 标准正态分布.

标准正态分布的概率密度函数

$$f(x)=\frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}$$

伽马分布

伽马分布(Gamma Distribution) 是连续型概率分布.

卡方分布 和 指数分布 都是 伽马分布 的一种特殊情况.

参数 α 称为形状参数, β 称为逆尺度参数.

用于描述随机变量 X 为等到第 α 件事发生所需之等候时间.

概率密度函数

$$
f(x,\beta,\alpha) = \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}, \quad x > 0.
$$

期望与方差

$$\mu (EX)=\frac{\alpha}{\beta}, \quad \sigma^2 (DX)=\frac{\alpha}{\beta^2}$$

卡方分布

卡方分布(Chi-square Distribution) 又称为 西格玛分布, 是连续型概率分布.

若 n 个相互独立的随机变量 ξ₁, ξ₂, …, ξn, 均服从 标准正态分布 (也称独立同分布于标准正态分布), 则这 n 个服从标准正态分布的随机变量的平方和 $Q=\sum_{i=1}^{n}ξ_i^2$ 构成一新的随机变量, 其分布规律称为 卡方分布 即为 $\chi^2分布$.

其中, 参数 $\upsilon$ 为卡方分布的自由度, 表示不同的卡方分布, 记为 $Q∼\chi^2(\upsilon)$, 当 $\upsilon$ 很大时, 卡方分布近似为正态分布.

概率密度函数

$$
f(x)=\begin{cases}
\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},\quad x>0 \\
0,\quad x\leq0
\end{cases}
$$

指数分布

指数分布(Exponential Distribution) 是连续型概率分布.

其中 λ > 0 是分布的一个参数，常被称为率参数（rate parameter）. 即每单位时间内发生某事件的次数. 指数分布的区间是 [0,∞). 如果一个随机变量 X 呈指数分布，则可以写作: X~E(λ).

概率密度函数

$$
f(x) = \begin{cases}
λe^{-λ_x},\quad x>0 \\
0,\quad x\leq0
\end{cases}
$$

有时, 使用 θ=1/λ.

期望与方差

$$EX=\frac{1}{λ}, DX=\frac{1}{λ^2}$$

随机分布

随机分布每个取样单位中出现的概率相同.

均匀分布

均匀分布(Uniform Distribution) 又称作 矩形分布, 是对称概率分布，在相同长度间隔的分布概率是等可能的.

均匀分布由两个参数 a 和 b 定义，它们是数轴上的最小值和最大值，通常缩写为 U(a,b).

$$
f(x) = \begin{cases}
\frac{1}{b-a},\quad a<x<b \\
0,\quad 其他
\end{cases}
$$

其他知识

期望与方差

期望 EX, $\mu$: 就是平均值.

方差 DX, $\sigma^2$: $DX = E(x^2) - [E(x)]^2$

概率质量 vs. 概率密度

概率质量函数(probability mass function) 是离散随机变量在各特定取值上的概率.

概率密度函数(Probability density function) 是连续型随机变量的输出值, 在某个确定的取值点附近的可能性的函数.

概率质量函数 和 概率密度函数 不同之处在于: 概率质量函数是对离散随机变量定义的, 本身代表该值的概率; 概率密度函数是对连续随机变量定义的, 本身不是概率, 只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率.

PS: 个人理解 概率质量函数 在某一点的值是 该点的概率, 概率密度函数 在某一点的值是 该点的概率的概率.

后续拓展

傅里叶变换, 拉普拉斯变换, 泰勒级数, 矩, 偏态, 峰态, 特征函数, 熵, 信息熵

参考文档

几种重要的概率分布（上）
几种重要的概率分布（下）