1. 核心思想:基于贝叶斯定理的“朴素”分类器
朴素贝叶斯法是一种基于贝叶斯定理和特征条件独立性假设的分类算法。它的核心思想是:对于一个待分类的新样本,计算它属于每个类别的概率,然后选择概率最大的那个类别作为最终分类结果。
朴素一词来源于它的一个强假设:假设所有特征在给定类别的情况下是相互独立的。
2. 分类过程:概率计算与比较
假设我们有一个待分类样本,它具有特征 ${f_1, f_2, ..., f_n}$。我们需要计算它属于某个类别 $C_i$ 的概率 $P(C_i | f_1, f_2, ..., f_n)$。
根据贝叶斯定理:
$$P(C_i | f_1, f_2, ..., f_n) = \frac{P(f_1, f_2, ..., f_n | C_i) P(C_i)}{P(f_1, f_2, ..., f_n)}$$
由于分母 $P(f_1, f_2, ..., f_n)$ 对于所有类别都是相同的,我们只需要比较分子的值即可:
$$P(f_1, f_2, ..., f_n | C_i) P(C_i)$$
利用朴素假设,我们将联合概率分解为条件概率的乘积:
$$P(f_1, f_2, ..., f_n | C_i) = P(f_1|C_i) \times P(f_2|C_i) \times ... \times P(f_n|C_i)$$
最终的分类规则为:
$$ \text{分类结果} = \arg\max_{C_i} \left( P(Ci) \prod{j=1}^{n} P(f_j|C_i) \right) $$
其中:
- $P(C_i)$: 先验概率,表示类别 $C_i$ 在训练集中出现的频率。
- $P(f_j|C_i)$: 似然度,表示在类别 $C_i$ 中,特征 $f_j$ 出现的频率。
3. 拉普拉斯平滑(Laplace Smoothing):解决零概率问题
当某个特征在某个类别中从未出现时,其似然度为 0,这会导致整个乘积为 0,从而使该类别的后验概率为 0。这在实际应用中是不合理的。
拉普拉斯平滑通过在分子和分母上都加上一个值,来避免出现 0 概率的情况。
- 平滑前的似然度:
$$P(f_j|C_i) = \frac{\text{类别 } C_i \text{ 中包含特征 } f_j \text{ 的样本数}}{\text{类别 } C_i \text{ 的总样本数}}$$ - 拉普拉斯平滑后的似然度:
$$P(f_j|C_i) = \frac{\text{类别 } C_i \text{ 中包含特征 } f_j \text{ 的样本数} + \alpha}{\text{类别 } C_i \text{ 的总样本数} + \alpha V}$$- $\alpha$: 平滑参数,通常取 1(加1平滑)。
- $V$: 特征 $f_j$ 所有可能的取值数。
通过平滑处理,即使某个特征没有在训练集中出现,它也能获得一个微小的非零概率值,避免了过拟合和极端情况的发生。
- 1本网站名称:MuQYY
- 2本站永久网址:www.muqyy.top
- 3本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 微信:bwj-1215 进行删除处理。
- 4本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
- 5本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
- 6本站资源大多存储在云盘,如发现链接失效,请联系我们我们会在第一时间更新。






暂无评论内容