深度递归 Q 学习用于部分可观测马尔可夫决策过程

1. 引言

深度强化学习在复杂任务中已经取得了很好的效果。然而, 现有的深度 Q 网络 (DQN) 存在以下局限性:

1) 记忆能力有限, 只能利用最近几帧的信息。
2) 依赖于在每个决策点能够观察到完整的游戏画面。

为了解决这些问题, 本文提出了深度递归 Q 网络 (DRQN), 通过在 DQN 中加入长短期记忆 (LSTM) 来处理部分可观测的环境。

2. 深度 Q 学习

Q 学习是一种用于估计长期回报的无模型离线策略算法。传统 Q 学习需要维护一个状态-动作值表, 而深度 Q 学习使用神经网络来近似 Q 值函数:

$$Q(s, a|\theta) \approx Q^*(s,a)$$

其中 $\theta$是网络参数。训练时使用均方误差损失:

$$L(\theta) = \mathbb{E}[(r + \gamma \max_{a'} Q(s', a'|\theta^-) - Q(s,a|\theta))^2]$$

为了稳定训练,DQN 采用了经验回放和目标网络等技巧。

3. 部分可观测性

在实际环境中, 智能体往往无法获得完整的系统状态信息, 这就导致了部分可观测马尔可夫决策过程 (POMDP) 。 POMDP 可以用一个 6 元组 $(S,A,P,R,\Omega,O. $描述, 其中 $\Omega$是观测空间,$O$是观测函数。

标准的 DQN 无法有效处理 POMDP, 因为它直接从观测估计 Q 值:$Q(o,a|\theta) \neq Q(s,a|\theta)$。

4. DRQN 架构

DRQN 在 DQN 的基础上, 将第一个全连接层替换为 LSTM 层:

1) 输入:84x84 的游戏画面
2) 3 个卷积层
3) LSTM 层 (512 个单元)
4) 全连接输出层 (18 个动作的 Q 值)

训练时同时学习卷积层和递归层的参数。

5. 稳定的递归更新

考虑了两种更新方式:

1) 顺序更新: 从回放记忆中选择完整的 episode 进行更新
2) 随机更新: 从回放记忆中随机选择起始点, 更新固定步数

实验表明两种方式都可以收敛, 本文采用随机更新方式。

6. Atari 游戏:MDP 还是 POMDP?

Atari 2600 游戏的状态可以由 128 字节的控制台 RAM 完全描述。但是, 人类和 AI 智能体只能观察到游戏画面。对于许多游戏来说, 单帧画面不足以确定系统状态。

DQN 通过使用最近 4 帧画面作为输入来推断完整状态。为了引入部分可观测性, 本文提出了"闪烁 Pong"游戏 - 以 0.5 的概率遮挡每一帧画面。

7. 在标准 Atari 游戏上的评估

在 9 个 Atari 游戏上评估了 DRQN 的性能。结果表明:

1) DRQN 的整体表现与 DQN 相当
2) 在 Frostbite 和 Double Dunk 上 DRQN 表现更好
3) 在 Beam Rider 上 DRQN 表现较差

8. 从 MDP 到 POMDP 的泛化

研究了在标准 MDP 上训练的网络是否能泛化到 POMDP 。结果表明:

1) 在闪烁版游戏上,DRQN 和 DQN 的性能都有下降
2) DRQN 比 DQN 保留了更多原有性能
3) 递归控制器对缺失信息具有一定的鲁棒性

9. 相关工作

之前的工作主要集中在使用策略梯度方法训练 LSTM 来解决 POMDP 。本文的创新点在于:

1) 使用时序差分更新来自举动作值函数
2) 联合训练卷积层和 LSTM 层, 可以直接从像素学习

10. 讨论与结论

主要结论:

1) DRQN 能够整合多帧信息, 检测物体速度等相关特征
2) 在闪烁 Pong 游戏上,DRQN 比 DQN 更能处理部分可观测性
3) DRQN 学到的策略可以泛化到完全可观测的情况
4) 在大多数游戏中, 递归网络相比输入层堆叠帧并没有系统性的优势

未来工作可以进一步研究递归网络在 Pong 和 Frostbite 等游戏上表现更好的原因。

参考文献

  1. Mnih, V. , Kavukcuoglu, K., Silver, D., et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
  2. Hochreiter, S. and Schmidhuber, J. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
  3. Watkins, C. J. C. H. and Dayan, P. Q-learning. Machine learning, 8(3-4):279–292, 1992.
  4. Bellemare, M. G., Naddaf, Y., Veness, J., and Bowling, M. The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47:253–279, 2013.
  5. Zeiler, M. D. ADADELTA: An adaptive learning rate method. arXiv preprint arXiv:1212.5701, 2012.

发表评论