朴素贝叶斯法与拉普拉斯平滑

1. 核心思想:基于贝叶斯定理的“朴素”分类器

朴素贝叶斯法是一种基于贝叶斯定理特征条件独立性假设的分类算法。它的核心思想是:对于一个待分类的新样本,计算它属于每个类别的概率,然后选择概率最大的那个类别作为最终分类结果。

朴素一词来源于它的一个强假设:假设所有特征在给定类别的情况下是相互独立的。

2. 分类过程:概率计算与比较

假设我们有一个待分类样本,它具有特征 ${f_1, f_2, ..., f_n}$。我们需要计算它属于某个类别 $C_i$ 的概率 $P(C_i | f_1, f_2, ..., f_n)$。

根据贝叶斯定理:
$$P(C_i | f_1, f_2, ..., f_n) = \frac{P(f_1, f_2, ..., f_n | C_i) P(C_i)}{P(f_1, f_2, ..., f_n)}$$

由于分母 $P(f_1, f_2, ..., f_n)$ 对于所有类别都是相同的,我们只需要比较分子的值即可:
$$P(f_1, f_2, ..., f_n | C_i) P(C_i)$$

利用朴素假设,我们将联合概率分解为条件概率的乘积:
$$P(f_1, f_2, ..., f_n | C_i) = P(f_1|C_i) \times P(f_2|C_i) \times ... \times P(f_n|C_i)$$

最终的分类规则为:
$$ \text{分类结果} = \arg\max_{C_i} \left( P(Ci) \prod{j=1}^{n} P(f_j|C_i) \right) $$

其中:

  • $P(C_i)$: 先验概率,表示类别 $C_i$ 在训练集中出现的频率。
  • $P(f_j|C_i)$: 似然度,表示在类别 $C_i$ 中,特征 $f_j$ 出现的频率。

3. 拉普拉斯平滑(Laplace Smoothing):解决零概率问题

当某个特征在某个类别中从未出现时,其似然度为 0,这会导致整个乘积为 0,从而使该类别的后验概率为 0。这在实际应用中是不合理的。

拉普拉斯平滑通过在分子和分母上都加上一个值,来避免出现 0 概率的情况。

  • 平滑前的似然度:
    $$P(f_j|C_i) = \frac{\text{类别 } C_i \text{ 中包含特征 } f_j \text{ 的样本数}}{\text{类别 } C_i \text{ 的总样本数}}$$
  • 拉普拉斯平滑后的似然度:
    $$P(f_j|C_i) = \frac{\text{类别 } C_i \text{ 中包含特征 } f_j \text{ 的样本数} + \alpha}{\text{类别 } C_i \text{ 的总样本数} + \alpha V}$$

    • $\alpha$: 平滑参数,通常取 1(加1平滑)。
    • $V$: 特征 $f_j$ 所有可能的取值数。

通过平滑处理,即使某个特征没有在训练集中出现,它也能获得一个微小的非零概率值,避免了过拟合和极端情况的发生。

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容