Why Linear Recurrent Memory Works in Partially Observable Reinforcement Learning

📄 arXiv: 2605.31261v1 📥 PDF

作者: Yike Zhao, Onno Eberhard, Malek Khammassi, Ali H. Sayed, Michael Muehlebach

分类: cs.LG, cs.AI, stat.ML

发布日期: 2026-05-29


💡 一句话要点

提出线性滤波器,解决部分可观测强化学习中线性循环记忆网络的理论有效性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 部分可观测强化学习 线性循环神经网络 隐马尔可夫模型 信念向量 状态解码 线性滤波器 循环记忆 理论分析

📋 核心要点

  1. 部分可观测强化学习中,线性循环神经网络表现出色,但缺乏理论支撑,其有效性原因未知。
  2. 论文构建两种线性滤波器,分别用于精确重构信念向量和实现低状态解码误差,为线性循环记忆提供理论依据。
  3. 实验验证了所构建线性滤波器的有效性,并证明其在小型强化学习游戏中作为特征提取器的能力。

📝 摘要(中文)

线性循环神经网络作为循环记忆单元在部分可观测强化学习中表现出强大的性能。本文通过构建和研究两个线性滤波器,为它们的经验有效性提供了理论依据:(i)第一个滤波器精确地再现了隐马尔可夫模型(HMM)中确定性转移矩阵下的信念向量的 pre-softmax logits,从而作为最优策略学习的充分统计量;(ii)第二个滤波器在近乎确定性的转移矩阵下实现了消失的状态解码误差,从而将状态模糊性降低到接近于零。这些结果扩展到动作控制的HMM,其中相应的线性滤波器随着动作依赖的动态特性而随时间变化。我们通过数值实验说明了主要结果,并进一步表明,所构建的线性滤波器在小型强化学习游戏中可以作为强大的特征提取器。

🔬 方法详解

问题定义:在部分可观测强化学习(PORL)中,智能体无法直接访问环境的完整状态,只能通过观测来推断。线性循环神经网络(LRNNs)作为循环记忆单元在PORL中表现出良好的性能,但对其有效性的理论解释不足。现有的方法缺乏对LRNNs为何能够有效处理部分可观测性的深入理解。

核心思路:论文的核心思路是构建并分析两种特定的线性滤波器,以解释LRNNs在PORL中的有效性。第一种滤波器旨在精确重构隐马尔可夫模型(HMM)中的信念向量,而第二种滤波器旨在最小化状态解码误差。通过理论分析和实验验证,证明这些线性滤波器能够有效地处理部分可观测性,并为LRNNs的有效性提供理论基础。

技术框架:论文的技术框架主要包括以下几个部分: 1. HMM建模:将PORL环境建模为隐马尔可夫模型,其中状态是隐藏的,智能体只能通过观测来推断状态。 2. 线性滤波器构建:构建两种线性滤波器,分别用于重构信念向量和最小化状态解码误差。 3. 理论分析:对所构建的线性滤波器进行理论分析,证明其能够有效地处理部分可观测性。 4. 实验验证:通过数值实验验证所构建线性滤波器的有效性,并将其应用于小型强化学习游戏中。

关键创新:论文的关键创新在于: 1. 理论解释:为线性循环神经网络在部分可观测强化学习中的有效性提供了理论解释,填补了该领域的空白。 2. 线性滤波器构建:构建了两种特定的线性滤波器,分别用于重构信念向量和最小化状态解码误差,为解决PORL问题提供了新的思路。 3. 动作控制HMM扩展:将结果扩展到动作控制的HMM,使其更具通用性。

关键设计:论文的关键设计包括: 1. 信念向量重构滤波器:该滤波器旨在精确重构HMM中的信念向量,其设计基于确定性转移矩阵的假设。 2. 状态解码误差最小化滤波器:该滤波器旨在最小化状态解码误差,其设计基于近乎确定性的转移矩阵的假设。 3. 动作依赖动态特性:在动作控制的HMM中,线性滤波器的动态特性随动作而变化,使其能够适应不同的环境动态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过数值实验验证了所构建线性滤波器的有效性。实验结果表明,所构建的线性滤波器能够有效地重构信念向量和最小化状态解码误差。此外,实验还表明,所构建的线性滤波器在小型强化学习游戏中可以作为强大的特征提取器,提升智能体的学习效率。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、游戏AI等领域,在这些场景中,智能体通常只能获得部分观测信息。通过使用线性循环记忆网络或所提出的线性滤波器,智能体可以更好地推断环境状态,从而做出更明智的决策。该研究为开发更鲁棒、更高效的PORL算法提供了理论基础。

📄 摘要(原文)

The family of linear recurrent neural networks has shown strong performance as recurrent memory units in partially observable reinforcement learning. We provide a theoretical justification for their empirical effectiveness by constructing and studying two linear filters: (i) the first exactly reproduces the pre-softmax logits of the belief vector in a hidden Markov model (HMM) under a deterministic transition matrix, thereby serving as a sufficient statistic for optimal policy learning, (ii) the second achieves vanishing state-decoding error under a nearly deterministic transition matrix, thus reducing state ambiguity to near zero. The results extend to action-controlled HMMs, where the corresponding linear filters become time-varying with action-dependent dynamics. We illustrate our main results through numerical experiments and further show that the constructed linear filter serves as a strong feature extractor in a small reinforcement learning game.