深入解析贝尔曼方程:状态值、动作值与策略评估的核心基石

在强化学习的浩瀚宇宙中,贝尔曼方程(Bellman Equation)如同引力一般,将状态、动作与价值紧密联结,为智能体的决策提供数学根基。本文将从状态值动作值策略评估,结合实例与公式推导,为你揭开贝尔曼方程的神秘面纱。


一、状态值(State Value):策略优劣的“评分卡”

1. 定义与直观意义

状态值 $ v_\pi(s) $ 表示在策略 $ \pi $ 下,从状态 $s$ 出发的长期预期累积回报。数学定义为:

$$
v_\pi(s) \doteq \mathbb{E}[G_t \mid S_t = s]
$$

其中 $ G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots $,$\gamma$ 为折扣因子(通常 $ 0.9 \leq \gamma < 1 $),用于平衡当前与未来奖励的重要性。

示例
假设迷宫游戏中,策略1从起点出发的回报为 $\frac{\gamma}{1-\gamma}$,而策略2因绕路导致回报为 $-1 + \frac{\gamma}{1-\gamma}$。显然,策略1的状态值更高,直接反映其优越性。


2. 贝尔曼方程:状态值的递归分解

贝尔曼方程的核心思想是当前价值 = 即时奖励 + 未来价值的折扣期望。其数学形式为:

$$
v_\pi(s) = \sum_{a} \pi(a|s) \left[ \text{即时奖励} + \gamma \sum_{s’} P(s’|s,a) v_\pi(s’) \right]
$$

  • 即时奖励项:执行动作 $a$ 的期望奖励 $\sum_{r} P(r|s,a) r$。
  • 未来价值项:以概率 $P(s’|s,a)$ 转移到状态 $s’$,并累积其折扣价值 $\gamma v_\pi(s’)$。

矩阵形式
将状态值向量、即时奖励向量、状态转移矩阵表示为 $v_\pi$、$r_\pi$、$P_\pi$,则贝尔曼方程可简化为:

$$
v_\pi = r_\pi + \gamma P_\pi v_\pi
$$

解析解为 $v_\pi = (I - \gamma P_\pi)^{-1} r_\pi$,但实际多通过迭代法求解(如值迭代)。


二、动作值(Action Value):策略改进的“指南针”

1. 定义与核心作用

动作值 $q_\pi(s,a)$ 表示在状态 $s$ 执行动作 $a$ 后,继续遵循策略 $\pi$ 的预期回报:

$$
q_\pi(s,a) \doteq \mathbb{E}[G_t \mid S_t = s, A_t = a]
$$

与状态值的关系

  • 状态值是动作值的加权平均

    $$
    v_\pi(s) = \sum_{a} \pi(a|s) q_\pi(s,a)
    $$

  • 动作值依赖后续状态值

    $$
    q_\pi(s,a) = \sum_{r} P(r|s,a) r + \gamma \sum_{s’} P(s’|s,a) v_\pi(s’)
    $$

2. 动作值的贝尔曼方程扩展

将动作值向量、即时奖励向量表示为 $q_\pi$、$\tilde{r}$,贝尔曼方程可进一步扩展为:

$$
q_\pi = \tilde{r} + \gamma P \Pi q_\pi
$$

其中 $P$ 为状态转移矩阵,$\Pi$ 为策略矩阵。这一形式为后续Q-learning等算法奠定了基础。

示例
在图2.8的网格中,即使策略 $\pi$ 不选择动作 $a_1$,仍需计算 $q_\pi(s_1,a_1) = 1 + \gamma v_\pi(s_2)$。这为策略改进(如贪心策略)提供了潜在优化方向。


三、策略评估(Policy Evaluation):从方程到实践

1. 目标与方法

策略评估的目标是计算给定策略 $\pi$ 的状态值 $v_\pi$。常用方法包括:

  • 解析法:直接求解 $(I - \gamma P_\pi)^{-1} r_\pi$,适用于小规模问题。

  • 迭代法:通过值迭代逐步逼近真实值:

    $$
    v_{k+1} = r_\pi + \gamma P_\pi v_k
    $$

2. 网格世界示例

考虑一个3x3网格环境:

  • 终点(3,3)奖励+10,每移动一步惩罚-1。
  • 动作有80%概率成功,20%概率偏移。

迭代过程

  1. 初始化所有状态值 $V(s) = 0$。
  2. 按贝尔曼方程更新值(例如,邻近终点的状态值逐渐收敛至+9)。
  3. 重复直至变化量小于阈值(如 $10^{-6}$)。

四、关键问题与误区澄清

1. 未选择的动作是否有价值?

!即使策略 $\pi$ 不选择某动作(如图2.8的 $a_1$),仍需计算其动作值。这为策略改进(如ε-贪心策略)提供数据支持。

2. 自举(Bootstrapping)是循环论证吗?

!贝尔曼方程的“自举”本质是构建线性方程组,通过矩阵求导或迭代法打破循环依赖,而非逻辑谬误。


五、总结与展望

贝尔曼方程是强化学习的核心工具,但其应用也面临挑战:

  • 维度灾难:大规模状态空间需结合深度学习(如DQN)。
  • 环境未知:无模型方法(如Q-learning)通过采样替代转移概率 $P(s’|s,a)$。

从AlphaGo到自动驾驶,贝尔曼方程始终是智能体“思考未来”的数学基石。正如Richard Bellman所言:

“The essence of dynamic programming is to trade a complex problem for a sequence of simpler problems.”

理解贝尔曼方程,便是掌握了打开强化学习大门的钥匙。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容