当AI遇到“我感觉”：三种处理不确定性的经典理论-MuQYY的博客

在现实世界中，知识很少是“非黑即白”的。医生诊断病情，靠的是“根据症状，A病可能性较大”；地质学家找矿，依据的是“从岩层来看，这里很可能有矿”。为了让计算机能够模拟这种不确定性的推理，AI先驱们发展了多种理论。今天，我们就来深入了解其中最著名的三种。

这种方法是经典贝叶斯定理的一个“实用改良版”。它巧妙地绕开了传统贝叶斯公式中一些难以获取的概率值，让信念更新变得异常简单。

核心思想：
我们不用“概率”，改用“几率 (Odds)”来表示信念强度。信念的更新，就是一个简单的乘法。

后验几率 = 证据影响力因子 × 先验几率

关键公式与概念：

几率 (Odds)：O(H) = P(H) / (1 - P(H))
- 它衡量的是“假设H为真”与“假设H为假”的信念比例。
先验几率 O(H) (Prior Odds)：
- 在获得任何新证据前，你对假设H的初始信念强度。
后验几率 O(H|E) (Posterior Odds)：
- 在获得新证据E后，你对假设H更新后的信念强度。
核心更新公式：
- 当证据E为真时，使用充分性因子 LS (Likelihood of Sufficiency)：
  $$O(H|E) = LS \cdot O(H)$$
  LS 代表了证据E对假设H的支持强度。LS的定义是：LS = P(E|H) / P(E|¬H)。一个巨大的LS值意味着，这是“一票赞成”的关键证据。
  
  口语化理解：“有了它(证据)，你很可能就得了这个病。”
- 当证据E为假时，使用必要性因子 LN (Likelihood of Necessity)：
  $$O(H|¬E) = LN \cdot O(H)$$
  LN 代表了证据E的缺失对假设H的打击强度。它衡量的是一个证据对于一个假设的“必要”程度。LN的定义是：LN = P(¬E|H) / P(¬E|¬H)。一个接近0的LN值意味着，这是“一票否决”的关键证据。
  
  口语化理解：“没了它(证据)，你肯定就没得这个病。”

如何使用：
在实际的专家系统中，对于每一条规则 IF E THEN H，专家都需要提供两个值：LS和LN。

例如，一个医生对“病人有X病”的先验几率是0.1。该病的一个必要症状是“紫色斑点”。如果检查后没有斑点，而“没斑点”这个证据的LN值是0.01，那么更新后的后验几率就骤降为 0.01 * 0.1 = 0.001，基本排除了患病可能。

优点：计算简单，信念更新过程直观。
缺点：需要领域专家提供大量LS/LN值，且暗中假设了各个证据之间是相互独立的。

这是著名的医疗专家系统MYCIN的理论基础。它完全抛弃了概率，直接尝试模拟专家“有多相信”或“有多不相信”某个结论。

核心思想：
将对一个假设的“信任”和“不信任”分开来衡量，然后合并成一个最终的“可信度因子(CF)”。

关键公式与概念：

信任度 MB(H,E)：Measure of Belief。一个在[0, 1]之间的数，表示证据E在多大程度上支持假设H。
不信任度 MD(H,E)：Measure of Disbelief。一个在[0, 1]之间的数，表示证据E在多大程度上否定假设H（即支持¬H）。
可信度因子 CF(H,E)：
$$CF(H, E) = MB(H, E) - MD(H, E)$$
- CF的取值范围是 [-1, 1]。
  - +1：完全相信
  - -1：完全不信（即完全相信它为假）
  - 0：完全不知道
核心组合公式：
当有多条不同的证据都指向同一个结论时，如何合并它们的可信度？
- 假设从证据E₁得到的可信度是CF₁，从证据E₂得到的是CF₂。
- 如果CF₁和CF₂都为正：
  $$CF_{combine}(CF_1, CF_2) = CF_1 + CF_2 \cdot (1 - CF_1)$$
- 如果CF₁和CF₂都为负：
  $$CF_{combine}(CF_1, CF_2) = CF_1 + CF_2 \cdot (1 + CF_1)$$
- 如果一正一负：
  $$CF_{combine}(CF_1, CF_2) = \frac{CF_1 + CF_2}{1 - \min(|CF_1|, |CF_2|)}$$

优点：非常符合人类专家的思维习惯，易于构建规则。
缺点：理论基础不坚实（属于Ad-hoc模型），组合公式在某些情况下可能得出反直觉的结果。

D-S理论可以说是贝叶斯概率的推广，它更加强大，也更加复杂。它最大的特点是能够直接、明确地表示“无知”。

核心思想：
我们不把信任直接分配给某个单一的结论，而是分配给结论的集合。

关键公式与概念：

识别框架 Θ (Frame of Discernment)：所有可能结论的互斥集合。例如 Θ = {流感, 感冒, 过敏}。
基本概率分配 m(A) (Mass Function)：将[0, 1]之间的“信任质量”分配给Θ的任意子集A。所有子集的m值加起来必须等于1。
- m({流感}) = 0.4 表示有40%的证据直接指向流感。
- m({流感, 感冒}) = 0.3 表示有30%的证据支持“要么是流感，要么是感冒”，但无法进一步区分。
- m(Θ) = m({流感, 感冒, 过敏}) = 0.1 表示有10%完全是“无知”的，只知道是这三种病之一。
信任函数 Bel(A) (Belief)：
$$Bel(A) = \sum_{B \subseteq A} m(B)$$
- 它代表了所有完全支持A的证据的总和，是A为真的“信任下限”。
似然函数 Pl(A) (Plausibility)：
$$Pl(A) = \sum_{B \cap A \neq \emptyset} m(B) = 1 - Bel(¬A)$$
- 它代表了所有与A不矛盾的证据的总和，是A为真的“信任上限”。
信任区间 [Bel(A), Pl(A)]：
- 这个区间直观地表达了我们对A的不确定性。区间越宽，我们越无知。
Dempster组合规则：用于融合来自两个独立信源（m₁ 和 m₂）的证据。公式比较复杂，但其思想是，将两个信源的“信任质量”进行组合，同时处理好它们之间的冲突。

优点：能非常优雅地区分“不确定”和“不知道”（无知），是多传感器信息融合等领域的重要工具。
缺点：计算量巨大（因为它要处理所有可能的子集），且在处理高冲突证据时，组合规则可能会产生不合理的结果。

特性	主观贝叶斯	可信度理论 (CF)	证据理论 (D-S)
核心单元	几率 (Odds)	可信度因子 `[-1, 1]`	对集合的信任分配 `m(A)`
处理无知	困难，必须有先验值	能，`CF=0`表示未知	非常擅长，通过`m(Θ)`
理论基础	贝叶斯定理	启发式，经验模型	广义概率论
组合规则	顺序乘法	特设的组合公式	Dempster组合规则
主要优点	更新过程直观简单	符合专家直觉，易于实现	精确表达不确定性与无知
主要缺点	需专家提供LS/LN值	理论不严谨	计算极其复杂，有冲突问题