On the Importance of Multistability for Horizon Generalization in Reinforcement Learning

📄 arXiv: 2605.12206v1 📥 PDF

作者: Asad Bakija, Florent De Geeter, Julien Brandoit, Pierre Sacré, Guillaume Drion

分类: cs.LG

发布日期: 2026-05-12

备注: 23 pages, 6 figures


💡 一句话要点

提出时间horizon泛化理论框架,揭示多稳态对强化学习长期记忆的重要性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 时间horizon泛化 循环神经网络 多稳态 动态系统

📋 核心要点

  1. 长horizon的POMDP强化学习任务中,智能体难以泛化到更长的horizon,现有方法缺乏对horizon泛化能力的理论刻画。
  2. 论文形式化了时间horizon泛化的概念,并推导了策略在所有horizon上保持最优的充要条件,揭示了多稳态的重要性。
  3. 实验表明,多稳态对于时间horizon泛化至关重要,而现代可并行化RNN架构由于单稳态特性,难以实现horizon泛化。

📝 摘要(中文)

在强化学习(RL)中,智能体在部分可观察马尔可夫决策过程(POMDP)中行动时,必须依赖于记忆(通常编码在循环神经网络RNN中)来整合过去观测的信息。长horizon POMDP尤其具有挑战性:训练面临泛化能力差、样本效率低和探索成本高等问题。理想情况下,在短horizon上训练的智能体应在任意长的horizon上保持最佳行为,但目前没有正式的框架来描述何时可以实现这一点。为了填补这一空白,我们形式化了时间horizon泛化,即策略在所有horizon上保持最优的性质,推导了它的充要条件,并通过实验评估了非线性和可并行化RNN变体实现它的能力。本文介绍了由此产生的理论框架、实验评估以及将RNN行为与时间horizon泛化联系起来的动态解释。我们的分析表明,多稳态是时间horizon泛化的必要条件,并且在简单的任务中是充分的;更复杂的任务还需要瞬态动力学。相比之下,现代可并行化架构,即状态空间模型和门控线性RNN,在构造上是单稳态的,因此无法跨时间horizon泛化。我们得出结论,多稳态和瞬态动力学是horizon泛化的两个重要且互补的动态机制,并且目前没有可并行化的RNN同时表现出这两种机制。因此,设计结合这些机制的可并行化架构成为可扩展长horizon RL的关键方向。

🔬 方法详解

问题定义:论文旨在解决强化学习中,智能体在长horizon的POMDP任务中训练时,难以泛化到更长horizon的问题。现有方法缺乏对horizon泛化能力的理论分析,导致智能体在训练horizon之外表现不佳。

核心思路:论文的核心思路是形式化时间horizon泛化的概念,并从动态系统的角度分析RNN的内部状态演化。通过研究RNN的稳态和瞬态动力学,揭示了多稳态对于实现horizon泛化的重要性。论文认为,智能体需要具备在不同时间尺度上保持最优策略的能力,而多稳态可以帮助智能体记住过去的信息,并在需要时激活相应的策略。

技术框架:论文首先定义了时间horizon泛化的概念,即策略在所有horizon上保持最优的性质。然后,论文推导了实现时间horizon泛化的充要条件,并将其与RNN的动态特性联系起来。具体来说,论文分析了RNN的稳态和瞬态动力学,并证明了多稳态是实现horizon泛化的必要条件。最后,论文通过实验验证了理论分析的正确性,并比较了不同RNN架构的horizon泛化能力。

关键创新:论文最重要的技术创新点在于将时间horizon泛化问题与RNN的动态特性联系起来,并揭示了多稳态对于实现horizon泛化的重要性。与现有方法不同,论文不仅关注RNN的性能,还关注RNN的内部状态演化,从而为理解和改进RNN的horizon泛化能力提供了新的视角。

关键设计:论文的关键设计包括:1)形式化时间horizon泛化的概念;2)推导实现时间horizon泛化的充要条件;3)分析RNN的稳态和瞬态动力学;4)设计实验验证理论分析的正确性。论文还比较了不同RNN架构的horizon泛化能力,包括非线性RNN、门控线性RNN和状态空间模型。论文发现,非线性RNN具有较好的horizon泛化能力,而门控线性RNN和状态空间模型由于单稳态特性,难以实现horizon泛化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,多稳态对于时间horizon泛化至关重要。非线性RNN在简单任务中表现出较好的horizon泛化能力,但在更复杂的任务中,还需要瞬态动力学。相比之下,现代可并行化架构(如状态空间模型和门控线性RNN)由于单稳态特性,无法跨时间horizon泛化。这些结果表明,设计具有多稳态和瞬态动力学的可并行化RNN是未来研究的重要方向。

🎯 应用场景

该研究成果可应用于机器人控制、自然语言处理等需要长期记忆和推理的任务中。例如,在机器人导航任务中,智能体需要记住过去的环境信息,才能规划出最优的路径。该研究可以帮助设计具有更好horizon泛化能力的RNN,从而提高机器人的导航性能。此外,该研究还可以应用于对话系统、机器翻译等任务中,提高模型对长期依赖关系的建模能力。

📄 摘要(原文)

In reinforcement learning (RL), agents acting in partially observable Markov decision processes (POMDPs) must rely on memory, typically encoded in a recurrent neural network (RNN), to integrate information from past observations. Long-horizon POMDPs, in which the relevant observation and the optimal action are separated by many time steps (called the horizon), are particularly challenging: training suffers from poor generalization, severe sample inefficiency, and prohibitive exploration costs. Ideally, an agent trained on short horizons would retain optimal behavior at arbitrarily longer ones, but no formal framework currently characterizes when this is achievable. To fill this gap, we formalized temporal horizon generalization, the property that a policy remains optimal for all horizons, derived a necessary and sufficient condition for it, and experimentally evaluated the ability of nonlinear and parallelizable RNN variants to achieve it. This paper presents the resulting theoretical framework, the empirical evaluation, and the dynamical interpretation linking RNN behavior to temporal horizon generalization. Our analyses reveal that multistability is necessary for temporal horizon generalization and, in simple tasks, sufficient; more complex tasks further require transient dynamics. In contrast, modern parallelizable architectures, namely state space models and gated linear RNNs, are monostable by construction and consequently fail to generalize across temporal horizons. We conclude that multistability and transient dynamics are two essential and complementary dynamical regimes for horizon generalization, and that no current parallelizable RNN exhibits both. Designing parallelizable architectures that combine these regimes thus emerges as a key direction for scalable long-horizon RL.