当前位置：首页 > news >正文

学习笔记二十九：贝叶斯决策论

news 2026/6/28 15:23:10

1. 基本概念

1.1 贝叶斯决策论的定义

贝叶斯决策论（Bayesian Decision Theory）：
概率框架下实施决策的基本方法。

分类任务中的贝叶斯决策论：
在理想情况下，当所有相关概率都已知时，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

基本假设：
假设有NNN种可能的类别标记，即Y={c1,c2,…,cN}\mathcal{Y} = \{c_1, c_2, \ldots, c_N\}Y={c1,c2,…,cN}。

1.2 误判损失

误判损失λij\lambda_{ij}λij：
将一个真实标记为cjc_jcj的样本误分类为cic_ici所产生的损失。

0/1损失函数：
若目标是最小化分类错误率，则误判损失可写为：

λij={0,if i=j1,otherwise\lambda_{ij} = \begin{cases} 0, & \text{if } i = j \\ 1, & \text{otherwise} \end{cases}λij={0,1,ifi=jotherwise

即正确分类损失为0，错误分类损失为1。

1.3 条件风险

条件风险（Conditional Risk）：
基于后验概率P(cj∣x)P(c_j | x)P(cj∣x)，可获得将样本xxx分类为cic_ici所产生的期望损失，即在样本xxx上的条件风险：

R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i | x) = \sum_{j=1}^{N} \lambda_{ij} P(c_j | x)R(ci∣x)=j=1∑NλijP(cj∣x)

条件风险的含义：
条件风险表示在给定样本xxx的情况下，将xxx分类为cic_ici的期望损失。

1.4 总体风险

总体风险（Overall Risk）：
寻找一个判定准则h:X→Yh: \mathcal{X} \to \mathcal{Y}h:X→Y以最小化总体风险：

R(h)=Ex[R(h(x)∣x)]R(h) = \mathbb{E}_x [R(h(x) | x)]R(h)=Ex[R(h(x)∣x)]

总体风险的含义：
总体风险表示判定准则hhh在所有样本上的平均期望损失。

1.5 贝叶斯判定准则

贝叶斯判定准则（Bayes Decision Rule）：
对每个样本xxx，若hhh能最小化条件风险R(h(x)∣x)R(h(x) | x)R(h(x)∣x)，则总体风险R(h)R(h)R(h)也将被最小化。为最小化总体风险，只需在每个样本上选择那个能使条件风险R(c∣x)R(c | x)R(c∣x)最小的类别标记：

h∗(x)=arg⁡min⁡c∈YR(c∣x)h^*(x) = \arg\min_{c \in \mathcal{Y}} R(c | x)h∗(x)=argc∈YminR(c∣x)

贝叶斯最优分类器：
h∗h^*h∗称为贝叶斯最优分类器（Bayes Optimal Classifier），与之对应的总体风险R(h∗)R(h^*)R(h∗)称为贝叶斯风险（Bayes Risk）。

贝叶斯风险的意义：
1−R(h∗)1 - R(h^*)1−R(h∗)反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。

2. 具体方法

2.1 最小化分类错误率

0/1损失下的条件风险：
当使用0/1损失函数时，条件风险为：

R(c∣x)=1−P(c∣x)R(c | x) = 1 - P(c | x)R(c∣x)=1−P(c∣x)

最小化分类错误率的贝叶斯最优分类器：
此时，最小化分类错误率的贝叶斯最优分类器为：

h∗(x)=arg⁡max⁡c∈YP(c∣x)h^*(x) = \arg\max_{c \in \mathcal{Y}} P(c | x)h∗(x)=argc∈YmaxP(c∣x)

直观理解：
即对每个样本xxx，选择能使后验概率P(c∣x)P(c | x)P(c∣x)最大的类别标记。这符合直觉：选择最可能的类别。

2.2 后验概率的估计

核心问题：
欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率P(c∣x)P(c | x)P(c∣x)。然而，在现实任务中这通常难以直接获得。

机器学习的目标：
从这个角度来看，机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c∣x)P(c | x)P(c∣x)。

两种建模策略：

判别式模型（Discriminative Models）：
- 给定xxx，可通过直接建模P(c∣x)P(c | x)P(c∣x)来预测ccc
- 例如：决策树、BP神经网络、支持向量机等
生成式模型（Generative Models）：
- 先对联合概率分布P(x,c)P(x, c)P(x,c)建模，然后再由此获得P(c∣x)P(c | x)P(c∣x)
- 例如：朴素贝叶斯分类器等

2.3 贝叶斯定理

贝叶斯定理：
基于贝叶斯定理，P(c∣x)P(c | x)P(c∣x)可写为：

P(c∣x)=P(x,c)P(x)=P(c)P(x∣c)P(x)P(c | x) = \frac{P(x, c)}{P(x)} = \frac{P(c) P(x | c)}{P(x)}P(c∣x)=P(x)P(x,c)=P(x)P(c)P(x∣c)

各项的含义：

P(c)P(c)P(c)：类"先验"概率
- 表达了样本空间中各类样本所占的比例
- 根据大数定律，当训练集包含充足的独立同分布样本时，P(c)P(c)P(c)可通过各类样本出现的频率来进行估计
P(x∣c)P(x | c)P(x∣c)：样本xxx相对于类标记ccc的类条件概率，或称为"似然"
P(x)P(x)P(x)：用于归一化的"证据"因子
- 对给定样本xxx，证据因子P(x)P(x)P(x)与类标记ccc无关
- 因此估计P(c∣x)P(c | x)P(c∣x)的问题就转化为如何基于训练数据DDD来估计先验P(c)P(c)P(c)和似然P(x∣c)P(x | c)P(x∣c)