Revisiting Adam for Streaming Reinforcement Learning

📄 arXiv: 2605.06764v1 📥 PDF

作者: Florin Gogianu, Adrian Catalin Lutu, Razvan Pascanu

分类: cs.LG, cs.AI

发布日期: 2026-05-07


💡 一句话要点

重审流式强化学习中的Adam优化器:提出Adaptive Q(λ)以实现高效在线学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 流式强化学习 在线学习 Adam优化器 资格迹 分布强化学习 方差调整

📋 核心要点

  1. 核心问题:传统深度强化学习过度依赖经验回放池,导致流式在线学习场景下的训练不稳定且计算效率受限。
  2. 方法要点:通过分析Adam优化器与经典更新规则的交互,识别出目标函数导数有界与权重方差调整是实现鲁棒在线学习的关键。
  3. 实验效果:提出的Adaptive Q(λ)算法在55个Atari游戏上表现优于StreamQ,性能指标达到人类基准的两倍,验证了其高效性。

📝 摘要(中文)

流式强化学习旨在无需显式存储经验回放池的情况下,通过实时交互进行学习,这具有更高的效率和适应性。然而,过去十年深度强化学习主要依赖回放缓冲区或并行采样来缓解不稳定性。近期,StreamQ算法通过资格迹和优化器改进重新探索了这一方向。本文重新评估了DQN和C51等经典算法在在线设置下的表现,发现其性能优异。研究指出,鲁棒的性能依赖于两个核心属性:目标函数的导数必须有界,且权重更新需进行方差调整。基于此,本文提出了Adaptive Q(λ)算法,该算法结合了资格迹与方差调整机制,在55个Atari游戏子集上表现卓越,超越了现有方法,达到了人类基准的两倍性能。

🔬 方法详解

问题定义:论文旨在解决流式强化学习(Streaming RL)中的训练不稳定性问题。现有方法通常依赖大规模经验回放池来平滑梯度,而直接在线学习往往面临梯度方差过大、收敛困难的挑战。

核心思路:研究者通过分析Adam优化器在在线学习中的行为,提出鲁棒性能取决于两个必要条件:一是目标函数导数需有界,二是权重更新必须进行方差调整。通过将这些特性引入资格迹(Eligibility Traces)机制,实现高效的在线更新。

技术框架:该方法基于资格迹构建在线学习框架,并引入方差调整机制。它摒弃了传统的经验回放,直接利用实时交互数据进行梯度更新,并通过Adam优化器的自适应矩估计特性,动态调整学习率以适应在线数据的非平稳性。

关键创新:最重要的创新在于揭示了C51等分布强化学习算法在在线设置下表现优异的本质原因,并将其转化为通用的Adaptive Q(λ)算法。该方法成功将资格迹的长期信用分配能力与方差调整的优化稳定性相结合。

关键设计:算法核心在于对更新规则的方差控制,通过对梯度进行归一化或自适应缩放,确保在缺乏回放池的情况下,模型参数更新依然能够保持平稳收敛,从而在Atari基准测试中实现性能突破。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在55个Atari游戏子集上进行了全面评估。结果显示,具备方差调整特性的C51算法在在线设置下表现极具竞争力。新提出的Adaptive Q(λ)算法性能表现突出,在多项指标上均超越了现有的StreamQ算法,最终在相同基准测试中达到了人类平均水平的两倍,证明了该方法在流式学习任务中的优越性与鲁棒性。

🎯 应用场景

该研究适用于资源受限的嵌入式机器人、实时自适应控制系统以及需要低延迟响应的在线交互式AI代理。通过消除对大规模内存缓冲区的依赖,该方法显著降低了强化学习算法的部署门槛,为边缘计算环境下的实时智能决策提供了理论支撑与算法范式。

📄 摘要(原文)

Learning from a sequence of interactions, as soon as observations are perceived and acted upon, without explicitly storing them, holds the promise of simpler, more efficient and adaptive algorithms. For over a decade, however, deep reinforcement learning walked the contrary path, augmenting agents with replay buffers or parallel sampling routines, in an effort to tame learning instability. Recently, this topic has been revisited by Elsayed et al. (2024), focusing on update computation through eligibility traces and modifications to the optimisation routine, resulting in the StreamQ algorithm. In this work we take a step back, investigating the efficacy of established updates, such as those implemented by DQN and C51 within this online setting. Not only do we find that they perform well, but through analysing how the optimisation algorithm generally, and Adam in particular, interacts with these updates, we contend that two properties are essential for robust performance: i) the derivative of the objective is to be bounded and ii) weight updates are variance-adjusted. Rigorous and exhaustive experimentation demonstrates that C51, which exhibits both characteristics, is competitive with StreamQ across a subset of 55 Atari games. Using these insights, we derive a variance-adjusted algorithm based on eligibility traces, termed Adaptive Q$(λ)$, which approaches double the human baseline on the same subset, surpassing existing methods by all performance metrics.