当AI遇到“我感觉”:三种处理不确定性的经典理论

在现实世界中,知识很少是“非黑即白”的。医生诊断病情,靠的是“根据症状,A病可能性较大”;地质学家找矿,依据的是“从岩层来看,这里很可能有矿”。为了让计算机能够模拟这种不确定性的推理,AI先驱们发展了多种理论。今天,我们就来深入了解其中最著名的三种。


1. 主观贝叶斯方法 (Subjective Bayesian Method)

这种方法是经典贝叶斯定理的一个“实用改良版”。它巧妙地绕开了传统贝叶斯公式中一些难以获取的概率值,让信念更新变得异常简单。

核心思想:
我们不用“概率”,改用“几率 (Odds)”来表示信念强度。信念的更新,就是一个简单的乘法。

后验几率 = 证据影响力因子 × 先验几率

关键公式与概念:

  • 几率 (Odds)O(H) = P(H) / (1 - P(H))

    • 它衡量的是“假设H为真”与“假设H为假”的信念比例。
  • 先验几率 O(H) (Prior Odds)

    • 在获得任何新证据前,你对假设H的初始信念强度
  • 后验几率 O(H|E) (Posterior Odds)

    • 在获得新证据E后,你对假设H更新后的信念强度。
  • 核心更新公式

    • 当证据E为真时,使用充分性因子 LS (Likelihood of Sufficiency)
      $$O(H|E) = LS \cdot O(H)$$
      LS 代表了证据E对假设H的支持强度LS的定义是:LS = P(E|H) / P(E|¬H)。一个巨大的LS值意味着,这是“一票赞成”的关键证据。

      口语化理解:“有了它(证据),你很可能就得了这个病。”

    • 当证据E为假时,使用必要性因子 LN (Likelihood of Necessity)
      $$O(H|¬E) = LN \cdot O(H)$$
      LN 代表了证据E的缺失对假设H的打击强度。它衡量的是一个证据对于一个假设的“必要”程度。LN的定义是:LN = P(¬E|H) / P(¬E|¬H)。一个接近0的LN值意味着,这是“一票否决”的关键证据。

      口语化理解:“没了它(证据),你肯定就没得这个病。”

如何使用:
在实际的专家系统中,对于每一条规则 IF E THEN H,专家都需要提供两个值:LS和LN。

  1. 如果观察到证据E为真,系统就用LS去乘以当前的先验几率。
  2. 如果观察到证据E为假,系统就用LN去乘以当前的先验几率。

例如,一个医生对“病人有X病”的先验几率是0.1。该病的一个必要症状是“紫色斑点”。如果检查后没有斑点,而“没斑点”这个证据的LN值是0.01,那么更新后的后验几率就骤降为 0.01 * 0.1 = 0.001,基本排除了患病可能。

优点:计算简单,信念更新过程直观。
缺点:需要领域专家提供大量LS/LN值,且暗中假设了各个证据之间是相互独立的。


2. 可信度理论 (Certainty Factor Theory, CF)

这是著名的医疗专家系统MYCIN的理论基础。它完全抛弃了概率,直接尝试模拟专家“有多相信”或“有多不相信”某个结论。

核心思想:
将对一个假设的“信任”和“不信任”分开来衡量,然后合并成一个最终的“可信度因子(CF)”。

关键公式与概念:

  • 信任度 MB(H,E):Measure of Belief。一个在[0, 1]之间的数,表示证据E在多大程度上支持假设H。

  • 不信任度 MD(H,E):Measure of Disbelief。一个在[0, 1]之间的数,表示证据E在多大程度上否定假设H(即支持¬H)。

  • 可信度因子 CF(H,E)
    $$CF(H, E) = MB(H, E) - MD(H, E)$$

    • CF的取值范围是 [-1, 1]
      • +1:完全相信
      • -1:完全不信(即完全相信它为假)
      • 0:完全不知道
  • 核心组合公式
    当有多条不同的证据都指向同一个结论时,如何合并它们的可信度?

    • 假设从证据E₁得到的可信度是CF₁,从证据E₂得到的是CF₂
    • 如果CF₁和CF₂都为正
      $$CF_{combine}(CF_1, CF_2) = CF_1 + CF_2 \cdot (1 - CF_1)$$
    • 如果CF₁和CF₂都为负
      $$CF_{combine}(CF_1, CF_2) = CF_1 + CF_2 \cdot (1 + CF_1)$$
    • 如果一正一负
      $$CF_{combine}(CF_1, CF_2) = \frac{CF_1 + CF_2}{1 - \min(|CF_1|, |CF_2|)}$$

优点:非常符合人类专家的思维习惯,易于构建规则。
缺点:理论基础不坚实(属于Ad-hoc模型),组合公式在某些情况下可能得出反直觉的结果。


3. 证据理论 (Dempster-Shafer Theory, D-S)

D-S理论可以说是贝叶斯概率的推广,它更加强大,也更加复杂。它最大的特点是能够直接、明确地表示“无知”。

核心思想:
我们不把信任直接分配给某个单一的结论,而是分配给结论的集合

关键公式与概念:

  • 识别框架 Θ (Frame of Discernment):所有可能结论的互斥集合。例如 Θ = {流感, 感冒, 过敏}

  • 基本概率分配 m(A) (Mass Function):将[0, 1]之间的“信任质量”分配给Θ任意子集A。所有子集的m值加起来必须等于1。

    • m({流感}) = 0.4 表示有40%的证据直接指向流感。
    • m({流感, 感冒}) = 0.3 表示有30%的证据支持“要么是流感,要么是感冒”,但无法进一步区分。
    • m(Θ) = m({流感, 感冒, 过敏}) = 0.1 表示有10%完全是“无知”的,只知道是这三种病之一。
  • 信任函数 Bel(A) (Belief)
    $$Bel(A) = \sum_{B \subseteq A} m(B)$$

    • 它代表了所有完全支持A的证据的总和,是A为真的“信任下限”。
  • 似然函数 Pl(A) (Plausibility)
    $$Pl(A) = \sum_{B \cap A \neq \emptyset} m(B) = 1 - Bel(¬A)$$

    • 它代表了所有与A不矛盾的证据的总和,是A为真的“信任上限”。
  • 信任区间 [Bel(A), Pl(A)]

    • 这个区间直观地表达了我们对A的不确定性。区间越宽,我们越无知。
  • Dempster组合规则:用于融合来自两个独立信源(m₁ 和 m₂)的证据。公式比较复杂,但其思想是,将两个信源的“信任质量”进行组合,同时处理好它们之间的冲突

优点:能非常优雅地区分“不确定”和“不知道”(无知),是多传感器信息融合等领域的重要工具。
缺点:计算量巨大(因为它要处理所有可能的子集),且在处理高冲突证据时,组合规则可能会产生不合理的结果。

总结对比

特性 主观贝叶斯 可信度理论 (CF) 证据理论 (D-S)
核心单元 几率 (Odds) 可信度因子 [-1, 1] 对集合的信任分配 m(A)
处理无知 困难,必须有先验值 能,CF=0表示未知 非常擅长,通过m(Θ)
理论基础 贝叶斯定理 启发式,经验模型 广义概率论
组合规则 顺序乘法 特设的组合公式 Dempster组合规则
主要优点 更新过程直观简单 符合专家直觉,易于实现 精确表达不确定性与无知
主要缺点 需专家提供LS/LN值 理论不严谨 计算极其复杂,有冲突问题
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容