贝叶斯与频率派

准备开始阅读《概率论沉思录》,但是数学忘得差不多了。

之前在看B站的《机器学习-白板推导系列》的时候,开篇up对贝叶斯和频率派进行了简单的讲解,彼时就勾引起了我的兴趣,但后来没有坚持学习下去,这些概念也就抛之脑后了。

现在借着看书的契机,打算好好学习一下这个自己最感兴趣的数学领域。

先从这里开始吧.

找到一个可视化数学概念的网站: Seeing-theory

统计学中的两大派系:频率学派(Frequentist)、贝叶斯学派(Bayesian)

自从接触到数学之后,我总是在幻想,我们是不是可以通过一套非常严谨的数学公式,模拟出这个世界的运行规律?

其中概率是我直觉上感觉最为有可能找到这个规律的工具。从机器学习的发展来看,或许真的有这么一天吧(笑)。

把这个想法践行到极致的,或许就是统计学的学者们。

统计推断中有两种主要的方法:频率论贝叶斯,区别在于他们对不确定性的解释不同。[1]

这两个学派的争论也持续了多年,甚至牵扯到了哲学和意识形态上的争论[2]

《概率论沉思录》的作者E.T.Jaynes是坚定的贝叶斯支持者,现在贝叶斯的优越性已经在上百个领域中得到充分的验证。

但作为一个数学小白,我想首先我应该去总结了解一下频率派和贝叶斯之间的区别。

频率派(Frequentist)

核心观点

事件的概率就是无限重复实验中发生的频率。这个概率函数的参数是固定但未知的常数。

概率模型

假设$X$ 是数据,$\theta$是参数:

$$
X = \begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1P} \\
x_{21} & x_{22} & \cdots & x_{2P} \\
\vdots & \vdots & \ddots & \vdots \\
x_{N1} & x_{N2} & \cdots & x_{NP}
\end{bmatrix}
$$

$X$服从一个概率模型:
$$
x \sim p(x|\theta)
$$

在频率派中,他们认为这个$\theta$是一个未知的常量,而$X$是随机变量(r.v)。他们关心的是数据,需要把这个$\theta$估计出来,最常用的就是最大似然估计[3]

最大似然估计:常用的估计概率模型参数的方法:在所有可能的参数中,找出最有可能“生成”我们观察到的数据的那一组参数。

一般形式

$$
\hat{\theta}{\mathrm{MLE}} = \arg\max{\theta} p(x \mid \theta)
$$

  • 找到一组参数$theta$,使似然函数$p(x|\theta)$最大化,也就是找到“最可能”生成数据x的参数值。

多个样本且保持独立同分布:
$$
\hat{\theta}{\mathrm{MLE}} = \arg\max{\theta} \prod_{i=1}^{n} p(x_i \mid \theta)
$$

对数化表示:
$$
\hat{\theta}{\mathrm{MLE}} = \arg\max{\theta} \sum_{i=1}^{n} \log p(x_i \mid \theta)
$$

log是为了便于运算,这样连乘就变成了连加。

也会使用置信区间与假设来辅助决策。比如:若p值小于0.05,则拒绝原假设。

简单总结

频率派发展出来的模型一般来说称为统计机器学习。本质上来说是一个优化问题

  1. 建立一个模型
  2. 设计loss function
  3. 具体的算法:梯度下降……

贝叶斯派(Bayesian)

核心观点

参数和假设被视为概率分布,数据则被视为固定的。假设先验知识的存在,然后再用采样逐渐修改先验知识并逼近真实知识。

  • $\theta$: r.v, $\theta \sim p(\theta)$

通常情况下,我们称这个$p(\theta)$为先验概率。

先验是频率论和贝叶斯推理之间的主要区别之间,频率论分析的结果主要基于数据,而先验可以由专家信念、历史数据或两者组合决定。

概率模型

借助贝叶斯定理,将先验(Prior)和后验(Posterior)用似然联系在一起。

$$
Posterior = \frac{Likelihood \times Prior}{Evidence}
$$

也就是:

$$
P(\theta|X) =\frac{P(X|\theta)P(\theta)}{P(X)}
$$

  • $P(\theta|X)$后验概率:观察到数据$X$后,参数$\theta$取某个值的概率。
  • $P(X|\theta)$似然函数:在参数$theta$的前提下,观测到数据$X$的概率。
  • $P(\theta)$先验概率:在观测到数据前,我们对$\theta$f的信念。
  • $P(X)$边际似然marginal likelihood:又称证据,在没有知道具体$theta$是多少的前提下,观测到数据$X$的总概率。

其中$P(X)$的数学形式是:

$$
P(X) = \int P(X \mid \theta) , P(\theta) , d\theta
$$

也就是说,把所有可能的参数值下数据的可能性(加权先验)都加总起来。

这里我们引入MAP:最大后验估计(Maximum A Posteriori estimation)

因为$\theta$是一个分布,我们找到一个合适的值,使这个后验概率最大。

$$
\hat{\theta}{MAP} = \arg\max{\theta} P(\theta \mid X)
$$

也就是说,MAP估计是在最大化 似然函数先验分布 的乘积。

贝叶斯估计:观察到数据$X$后,基于后验分布,对参数$\theta$进行推断。MAP是贝叶斯估计的一个特例。

而求这个后验概率的其中一个目的,就是在贝叶斯预测中,预测新数据$x_{new}$的分布:
$$
P(x_{\text{new}} \mid X) = \int P(x_{\text{new}} \mid \theta) \cdot P(\theta \mid X) , d\theta
$$

符号 含义
$x_{\text{new}}$ 想要预测的新数据点
$X$ 已经观察到的数据
$\theta$ 模型的未知参数
$P(\theta \mid X)$ 后验分布:在观察 (X) 之后对参数的认知
$P(x_{\text{new}} \mid \theta)$ 参数给定下新数据的生成概率
$\int \cdots d\theta$ 对所有可能的参数值加权平均

我们不知道真实的 $\theta$,所以不直接用一个点估计,而是:

利用后验分布 $P(\theta \mid X)$
对所有可能的 (\theta) 进行加权,得到新样本的综合预测分布。

然后,从贝叶斯发展出来的就是概率图模型(求积分问题)。(因为上述这些公式的积分,在高纬、多变量、复杂模型中太难算了,往往没有解析解)

  • 解析解求不出啦,就用蒙特卡洛等方法来求积分。

概率图模型和蒙特卡洛以后解释
蒙特卡洛方法(Monte Carlo Methods)的简单说明:“采样 + 平均”来近似积分的数值方法

在贝叶斯推论中,前一次得到的后验概率分布可以视作下一次的先验概率。
在数据量趋近于无限时,频率派和贝叶斯派得到的结果是一致的,有一种说法是频率方法是贝叶斯方法的极限[4]

所以在实验次数较少的时候,贝叶斯方法非常有用,将先验知识纳入考虑,获得的数据越多,先验概率更新到后验分布。

总结

方面 频率派 (Frequentist) 贝叶斯派 (Bayesian)
概率定义 事件发生的频率,基于大量重复试验 对未知参数的主观信念,用概率分布描述
参数 固定但未知的常数 随机变量,有先验分布
核心方法 最大似然估计(MLE)、置信区间、假设检验 贝叶斯定理,后验概率,最大后验估计(MAP)
不确定性处理 仅通过数据,参数无概率分布 利用先验知识结合数据,参数带概率分布
目标 估计参数的“真实值” 得到参数的后验分布,更全面表达不确定性
预测 基于估计参数做点预测 通过后验分布对新数据进行概率预测
计算挑战 通常优化问题,计算相对简单 需计算积分,复杂模型时用蒙特卡洛等数值方法
适用场景 大样本,缺少先验信息 样本少且有先验知识时更有效
哲学基础 客观频率主义 主观概率主义
代表学者 Ronald Fisher,Jerzy Neyman,Egon Pearson Thomas Bayes,Pierre-Simon Laplace,E.T. Jaynes

  1. Understanding the Differences Between Bayesian and Frequentist Statistics:是文章也是播客,讲述了频率派和贝叶斯之间的差异,讨论两种方法的潜在优缺点。 ↩︎

  2. 《概率论沉思录》——E.T.Jaynes ↩︎

  3. B站机器学习白板推导系列 ↩︎

  4. 统计学里频率学派(Frequentist)与贝叶斯(Bayesian)学派的区别和在机器学习中的应用 ↩︎

作者

Zhou

发布于

2025-05-18

更新于

2025-05-18

许可协议

评论

+ + +