贝叶斯与频率派
准备开始阅读《概率论沉思录》,但是数学忘得差不多了。
之前在看B站的《机器学习-白板推导系列》的时候,开篇up对贝叶斯和频率派进行了简单的讲解,彼时就勾引起了我的兴趣,但后来没有坚持学习下去,这些概念也就抛之脑后了。
现在借着看书的契机,打算好好学习一下这个自己最感兴趣的数学领域。
先从这里开始吧.
找到一个可视化数学概念的网站: Seeing-theory
统计学中的两大派系:频率学派(Frequentist)、贝叶斯学派(Bayesian)
自从接触到数学之后,我总是在幻想,我们是不是可以通过一套非常严谨的数学公式,模拟出这个世界的运行规律?
其中概率是我直觉上感觉最为有可能找到这个规律的工具。从机器学习的发展来看,或许真的有这么一天吧(笑)。
把这个想法践行到极致的,或许就是统计学的学者们。
统计推断中有两种主要的方法:频率论和贝叶斯,区别在于他们对不确定性的解释不同。[1]
这两个学派的争论也持续了多年,甚至牵扯到了哲学和意识形态上的争论[2]。
《概率论沉思录》的作者E.T.Jaynes是坚定的贝叶斯支持者,现在贝叶斯的优越性已经在上百个领域中得到充分的验证。
但作为一个数学小白,我想首先我应该去总结了解一下频率派和贝叶斯之间的区别。
频率派(Frequentist)
概率模型
假设$X$ 是数据,$\theta$是参数:
$$
X = \begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1P} \\
x_{21} & x_{22} & \cdots & x_{2P} \\
\vdots & \vdots & \ddots & \vdots \\
x_{N1} & x_{N2} & \cdots & x_{NP}
\end{bmatrix}
$$
$X$服从一个概率模型:
$$
x \sim p(x|\theta)
$$
在频率派中,他们认为这个$\theta$是一个未知的常量,而$X$是随机变量(r.v)。他们关心的是数据,需要把这个$\theta$估计出来,最常用的就是最大似然估计[3]。
最大似然估计:常用的估计概率模型参数的方法:在所有可能的参数中,找出最有可能“生成”我们观察到的数据的那一组参数。
一般形式
$$
\hat{\theta}{\mathrm{MLE}} = \arg\max{\theta} p(x \mid \theta)
$$
- 找到一组参数$theta$,使似然函数$p(x|\theta)$最大化,也就是找到“最可能”生成数据x的参数值。
多个样本且保持独立同分布:
$$
\hat{\theta}{\mathrm{MLE}} = \arg\max{\theta} \prod_{i=1}^{n} p(x_i \mid \theta)
$$
对数化表示:
$$
\hat{\theta}{\mathrm{MLE}} = \arg\max{\theta} \sum_{i=1}^{n} \log p(x_i \mid \theta)
$$
log是为了便于运算,这样连乘就变成了连加。
也会使用置信区间与假设来辅助决策。比如:若p值小于0.05,则拒绝原假设。
简单总结
频率派发展出来的模型一般来说称为统计机器学习。本质上来说是一个优化问题。
- 建立一个模型
- 设计loss function
- 具体的算法:梯度下降……
贝叶斯派(Bayesian)
- $\theta$: r.v, $\theta \sim p(\theta)$
通常情况下,我们称这个$p(\theta)$为先验概率。
先验是频率论和贝叶斯推理之间的主要区别之间,频率论分析的结果主要基于数据,而先验可以由专家信念、历史数据或两者组合决定。
概率模型
借助贝叶斯定理,将先验(Prior)和后验(Posterior)用似然联系在一起。
$$
Posterior = \frac{Likelihood \times Prior}{Evidence}
$$
也就是:
$$
P(\theta|X) =\frac{P(X|\theta)P(\theta)}{P(X)}
$$
- $P(\theta|X)$后验概率:观察到数据$X$后,参数$\theta$取某个值的概率。
- $P(X|\theta)$似然函数:在参数$theta$的前提下,观测到数据$X$的概率。
- $P(\theta)$先验概率:在观测到数据前,我们对$\theta$f的信念。
- $P(X)$边际似然marginal likelihood:又称证据,在没有知道具体$theta$是多少的前提下,观测到数据$X$的总概率。
其中$P(X)$的数学形式是:
$$
P(X) = \int P(X \mid \theta) , P(\theta) , d\theta
$$
也就是说,把所有可能的参数值下数据的可能性(加权先验)都加总起来。
这里我们引入MAP:最大后验估计(Maximum A Posteriori estimation)。
因为$\theta$是一个分布,我们找到一个合适的值,使这个后验概率最大。
$$
\hat{\theta}{MAP} = \arg\max{\theta} P(\theta \mid X)
$$
也就是说,MAP估计是在最大化 似然函数 与 先验分布 的乘积。
贝叶斯估计:观察到数据$X$后,基于后验分布,对参数$\theta$进行推断。MAP是贝叶斯估计的一个特例。
而求这个后验概率的其中一个目的,就是在贝叶斯预测中,预测新数据$x_{new}$的分布:
$$
P(x_{\text{new}} \mid X) = \int P(x_{\text{new}} \mid \theta) \cdot P(\theta \mid X) , d\theta
$$
符号 | 含义 |
---|---|
$x_{\text{new}}$ | 想要预测的新数据点 |
$X$ | 已经观察到的数据 |
$\theta$ | 模型的未知参数 |
$P(\theta \mid X)$ | 后验分布:在观察 (X) 之后对参数的认知 |
$P(x_{\text{new}} \mid \theta)$ | 参数给定下新数据的生成概率 |
$\int \cdots d\theta$ | 对所有可能的参数值加权平均 |
我们不知道真实的 $\theta$,所以不直接用一个点估计,而是:
利用后验分布 $P(\theta \mid X)$,
对所有可能的 (\theta) 进行加权,得到新样本的综合预测分布。
然后,从贝叶斯发展出来的就是概率图模型(求积分问题)。(因为上述这些公式的积分,在高纬、多变量、复杂模型中太难算了,往往没有解析解)
- 解析解求不出啦,就用蒙特卡洛等方法来求积分。
概率图模型和蒙特卡洛以后解释
蒙特卡洛方法(Monte Carlo Methods)的简单说明:“采样 + 平均”来近似积分的数值方法
在贝叶斯推论中,前一次得到的后验概率分布可以视作下一次的先验概率。
在数据量趋近于无限时,频率派和贝叶斯派得到的结果是一致的,有一种说法是频率方法是贝叶斯方法的极限[4]。
所以在实验次数较少的时候,贝叶斯方法非常有用,将先验知识纳入考虑,获得的数据越多,先验概率更新到后验分布。
总结
方面 | 频率派 (Frequentist) | 贝叶斯派 (Bayesian) |
---|---|---|
概率定义 | 事件发生的频率,基于大量重复试验 | 对未知参数的主观信念,用概率分布描述 |
参数 | 固定但未知的常数 | 随机变量,有先验分布 |
核心方法 | 最大似然估计(MLE)、置信区间、假设检验 | 贝叶斯定理,后验概率,最大后验估计(MAP) |
不确定性处理 | 仅通过数据,参数无概率分布 | 利用先验知识结合数据,参数带概率分布 |
目标 | 估计参数的“真实值” | 得到参数的后验分布,更全面表达不确定性 |
预测 | 基于估计参数做点预测 | 通过后验分布对新数据进行概率预测 |
计算挑战 | 通常优化问题,计算相对简单 | 需计算积分,复杂模型时用蒙特卡洛等数值方法 |
适用场景 | 大样本,缺少先验信息 | 样本少且有先验知识时更有效 |
哲学基础 | 客观频率主义 | 主观概率主义 |
代表学者 | Ronald Fisher,Jerzy Neyman,Egon Pearson | Thomas Bayes,Pierre-Simon Laplace,E.T. Jaynes |
Understanding the Differences Between Bayesian and Frequentist Statistics:是文章也是播客,讲述了频率派和贝叶斯之间的差异,讨论两种方法的潜在优缺点。 ↩︎
《概率论沉思录》——E.T.Jaynes ↩︎