贝叶斯学派 v.s. 频率学派

给定训练数据集 XX 和参数 θ\theta

其中 $X=(x_0, x_1, …, x_n), x \sim^{i.i.d.} P(X|\theta) $

为简化记 P(Xθ)=i=1nP(xiθ)P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta)

频率派

假设

认为 θ\theta 是未知常量,XX 是随机变量

参数估计

MLE 极大似然估计:似然函数连乘最大化

θMLE=argmaxθlogP(Xθ)\theta_{MLE}= \arg \max_\theta \log P(X|\theta)

套路

  1. 统计机器学习模型:概率模型、判别模型
  2. 问题定义和损失函数设计
  3. 求解优化问题

贝叶斯派

假设

认为 \theta~P(\theta) 是随机变量,XX 是随机变量

$P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)} \propto P(X|\theta)P(\theta) $

其中 P(X)P(X) 可写为累加或积分形式 θP(Xθ)P(θ)dθ\int_\theta P(X|\theta)P(\theta) d\theta

其中 P(θX)P(\theta|X) 是后验概率,P(Xθ)P(X|\theta) 是 likelihood,P(Xθ)P(X|\theta) 是先验概率

参数估计

MAP 最大后验概率估计:寻找最优 θ\theta 使得后验概率最大

θMAP=argmaxθP(θX)=argmaxθP(Xθ)P(θ)\theta_{MAP} = \arg\max_\theta P(\theta|X)=\arg\max_\theta P(X|\theta) P(\theta)

贝叶斯预计:估计 θ\theta 关于 XX 的概率分布,较难求解

P(\theta|X) = \frac{P(X|\theta)P(\theta)}{\int_\theta P(X|\theta)P(\theta) d\theta}​

贝叶斯预测:通过 P(θX)P(\theta|X) 求 x 的概率分布

P(x~X)=P(x~,θX)dθ=P(x~θ)P(θX)dθP(\tilde x|X) = \int P(\tilde x,\theta|X)d\theta = \int P(\tilde x|\theta)P(\theta|X)d\theta

套路

  1. 概率图模型:HMM / CRF
  2. 求解积分问题:EM / MCMC / 蒙特卡洛模拟等方法

参考

机器学习-白板推导系列(一)-开篇 https://www.bilibili.com/video/av31950221

李航 《统计学习方法》

周志华 机器学习

PRML

MLAPP

《ESL》

《Deep Learning》

台大 林轩田 《机器学习基石》/《机器学习技法》(SVM) / 《VC理论 》

张志华《统计机器学习》(贝叶斯)/《机器学习导论》(频率派)

Stanford Andrew Ng CS229 CS330

徐益达 概率模型,github notes

台大 李宏毅 ML 2017 / MLDS 2018

本文有帮助?