在强化学习的浩瀚宇宙中,贝尔曼方程(Bellman Equation)如同引力一般,将状态、动作与价值紧密联结,为智能体的决策提供数学根基。本文将从状态值、动作值到策略评估,结合实例与公式推导,为你揭开贝尔曼方程的神秘面纱。
一、状态值(State Value):策略优劣的“评分卡”
1. 定义与直观意义
状态值 $ v_\pi(s) $ 表示在策略 $ \pi $ 下,从状态 $s$ 出发的长期预期累积回报。数学定义为:
$$
v_\pi(s) \doteq \mathbb{E}[G_t \mid S_t = s]
$$
其中 $ G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots $,$\gamma$ 为折扣因子(通常 $ 0.9 \leq \gamma < 1 $),用于平衡当前与未来奖励的重要性。
示例:
假设迷宫游戏中,策略1从起点出发的回报为 $\frac{\gamma}{1-\gamma}$,而策略2因绕路导致回报为 $-1 + \frac{\gamma}{1-\gamma}$。显然,策略1的状态值更高,直接反映其优越性。
2. 贝尔曼方程:状态值的递归分解
贝尔曼方程的核心思想是当前价值 = 即时奖励 + 未来价值的折扣期望。其数学形式为:
$$
v_\pi(s) = \sum_{a} \pi(a|s) \left[ \text{即时奖励} + \gamma \sum_{s’} P(s’|s,a) v_\pi(s’) \right]
$$
- 即时奖励项:执行动作 $a$ 的期望奖励 $\sum_{r} P(r|s,a) r$。
- 未来价值项:以概率 $P(s’|s,a)$ 转移到状态 $s’$,并累积其折扣价值 $\gamma v_\pi(s’)$。
矩阵形式:
将状态值向量、即时奖励向量、状态转移矩阵表示为 $v_\pi$、$r_\pi$、$P_\pi$,则贝尔曼方程可简化为:
$$
v_\pi = r_\pi + \gamma P_\pi v_\pi
$$
解析解为 $v_\pi = (I - \gamma P_\pi)^{-1} r_\pi$,但实际多通过迭代法求解(如值迭代)。
二、动作值(Action Value):策略改进的“指南针”
1. 定义与核心作用
动作值 $q_\pi(s,a)$ 表示在状态 $s$ 执行动作 $a$ 后,继续遵循策略 $\pi$ 的预期回报:
$$
q_\pi(s,a) \doteq \mathbb{E}[G_t \mid S_t = s, A_t = a]
$$
与状态值的关系:
-
状态值是动作值的加权平均:
$$
v_\pi(s) = \sum_{a} \pi(a|s) q_\pi(s,a)
$$ -
动作值依赖后续状态值:
$$
q_\pi(s,a) = \sum_{r} P(r|s,a) r + \gamma \sum_{s’} P(s’|s,a) v_\pi(s’)
$$
2. 动作值的贝尔曼方程扩展
将动作值向量、即时奖励向量表示为 $q_\pi$、$\tilde{r}$,贝尔曼方程可进一步扩展为:
$$
q_\pi = \tilde{r} + \gamma P \Pi q_\pi
$$
其中 $P$ 为状态转移矩阵,$\Pi$ 为策略矩阵。这一形式为后续Q-learning等算法奠定了基础。
示例:
在图2.8的网格中,即使策略 $\pi$ 不选择动作 $a_1$,仍需计算 $q_\pi(s_1,a_1) = 1 + \gamma v_\pi(s_2)$。这为策略改进(如贪心策略)提供了潜在优化方向。
三、策略评估(Policy Evaluation):从方程到实践
1. 目标与方法
策略评估的目标是计算给定策略 $\pi$ 的状态值 $v_\pi$。常用方法包括:
-
解析法:直接求解 $(I - \gamma P_\pi)^{-1} r_\pi$,适用于小规模问题。
-
迭代法:通过值迭代逐步逼近真实值:
$$
v_{k+1} = r_\pi + \gamma P_\pi v_k
$$
2. 网格世界示例
考虑一个3x3网格环境:
- 终点(3,3)奖励+10,每移动一步惩罚-1。
- 动作有80%概率成功,20%概率偏移。
迭代过程:
- 初始化所有状态值 $V(s) = 0$。
- 按贝尔曼方程更新值(例如,邻近终点的状态值逐渐收敛至+9)。
- 重复直至变化量小于阈值(如 $10^{-6}$)。
四、关键问题与误区澄清
1. 未选择的动作是否有价值?
是!即使策略 $\pi$ 不选择某动作(如图2.8的 $a_1$),仍需计算其动作值。这为策略改进(如ε-贪心策略)提供数据支持。
2. 自举(Bootstrapping)是循环论证吗?
否!贝尔曼方程的“自举”本质是构建线性方程组,通过矩阵求导或迭代法打破循环依赖,而非逻辑谬误。
五、总结与展望
贝尔曼方程是强化学习的核心工具,但其应用也面临挑战:
- 维度灾难:大规模状态空间需结合深度学习(如DQN)。
- 环境未知:无模型方法(如Q-learning)通过采样替代转移概率 $P(s’|s,a)$。
从AlphaGo到自动驾驶,贝尔曼方程始终是智能体“思考未来”的数学基石。正如Richard Bellman所言:
“The essence of dynamic programming is to trade a complex problem for a sequence of simpler problems.”
理解贝尔曼方程,便是掌握了打开强化学习大门的钥匙。
- 1本网站名称:MuQYY
- 2本站永久网址:www.muqyy.top
- 3本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 微信:bwj-1215 进行删除处理。
- 4本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
- 5本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
- 6本站资源大多存储在云盘,如发现链接失效,请联系我们我们会在第一时间更新。






暂无评论内容