Intentional Updates for Streaming Reinforcement Learning

📄 arXiv: 2604.19033v1 📥 PDF

作者: Arsalan Sharifnassab, Mohamed Elsayed, Kris De Asis, A. Rupam Mahmood, Richard S. Sutton

分类: cs.LG, cs.AI

发布日期: 2026-04-21


💡 一句话要点

提出Intentional Updates,解决流式强化学习中步长选择不稳问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 流式强化学习 Intentional Updates TD学习 策略梯度 资格迹 在线学习 步长选择

📋 核心要点

  1. 传统梯度学习在流式场景下步长选择困难,易导致训练不稳定,更新幅度波动大。
  2. 提出Intentional Updates,先确定更新目标,再求解步长,保证更新过程可控。
  3. 结合资格迹和对角缩放,Intentional TD和Intentional Policy Gradient在流式强化学习中表现出色。

📝 摘要(中文)

在基于梯度的学习中,以参数单位选择的步长无法产生函数输出中可预测的单步变化。这通常会导致流式设置(即,batch size=1)中的不稳定,因为随机性没有被平均掉,并且更新幅度可能会瞬间变得任意大或小。为此,我们提出了Intentional Updates:首先指定更新的预期结果,然后求解近似实现它的步长。这种策略在通过归一化最小均方算法实现的在线监督线性回归中已有先例,该算法选择一个步长,以产生与当前误差成比例的函数输出的指定变化。我们将这一原则扩展到流式深度强化学习,通过定义适当的预期结果:Intentional TD旨在固定减少TD误差的比例,而Intentional Policy Gradient旨在限制策略的单步变化,从而限制局部KL散度。我们提出了结合资格迹和对角缩放的实用算法。实验表明,这些方法产生了最先进的流式性能,其性能通常与批量和回放缓冲区方法相当。

🔬 方法详解

问题定义:在流式强化学习(streaming reinforcement learning)中,每个样本只使用一次,无法像批量学习那样通过多次迭代来平滑梯度。传统的基于梯度的学习方法,其步长选择是以参数空间为单位的,这导致函数输出的变化难以预测,从而引起训练过程的不稳定,尤其是在更新幅度瞬间变得很大或很小的时候。

核心思路:论文的核心思想是“Intentional Updates”,即有目标地进行更新。不再直接选择参数空间的步长,而是首先明确期望的更新结果(例如,TD误差的减少比例,或者策略变化的幅度),然后反过来求解能够近似达到这个目标的步长。这样可以更直接地控制函数输出的变化,从而提高训练的稳定性。

技术框架:该方法主要包含两个部分:Intentional TD和Intentional Policy Gradient。Intentional TD旨在固定比例地减少TD误差,而Intentional Policy Gradient旨在限制策略的单步变化,通过限制局部KL散度来实现。这两个部分都结合了资格迹(eligibility traces)和对角缩放(diagonal scaling)技术,以提高算法的效率和稳定性。整体流程是,在每个时间步,根据当前状态和奖励计算TD误差或策略梯度,然后根据预设的更新目标求解步长,并使用该步长更新价值函数或策略。

关键创新:最重要的创新在于将更新目标从参数空间转移到函数输出空间。传统方法直接调整参数,难以预测函数输出的变化;而Intentional Updates直接控制函数输出的变化,从而更好地控制训练过程。与现有方法的本质区别在于,它不是盲目地沿着梯度方向更新参数,而是有目标地调整参数,以达到预期的函数输出变化。

关键设计:Intentional TD的关键设计在于如何确定TD误差的减少比例,以及如何求解能够达到这个目标的步长。Intentional Policy Gradient的关键设计在于如何限制策略的单步变化,以及如何求解满足KL散度约束的步长。论文中使用了资格迹来加速学习,并使用对角缩放来提高算法的稳定性。具体的损失函数和网络结构取决于具体的强化学习任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Intentional TD和Intentional Policy Gradient在流式强化学习任务中取得了state-of-the-art的性能,其性能通常与使用批量和回放缓冲区的方法相当,甚至在某些情况下优于这些方法。这表明Intentional Updates能够有效地解决流式强化学习中的不稳定问题,并提高学习效率。

🎯 应用场景

该研究成果可应用于需要在线学习和快速适应环境变化的机器人控制、自动驾驶、推荐系统等领域。通过Intentional Updates,智能体可以在数据流中更稳定、更高效地学习,从而更好地适应动态变化的环境,提升决策能力和用户体验。该方法有望推动强化学习在实际场景中的广泛应用。

📄 摘要(原文)

In gradient-based learning, a step size chosen in parameter units does not produce a predictable per-step change in function output. This often leads to instability in the streaming setting (i.e., batch size=1), where stochasticity is not averaged out and update magnitudes can momentarily become arbitrarily big or small. Instead, we propose intentional updates: first specify the intended outcome of an update and then solve for the step size that approximately achieves it. This strategy has precedent in online supervised linear regression via Normalized Least Mean Squares algorithm, which selects a step size to yield a specified change in the function output proportional to the current error. We extend this principle to streaming deep reinforcement learning by defining appropriate intended outcomes: Intentional TD aims for a fixed fractional reduction of the TD error, and Intentional Policy Gradient aims for a bounded per-step change in the policy, limiting local KL divergence. We propose practical algorithms combining eligibility traces and diagonal scaling. Empirically, these methods yield state-of-the-art streaming performance, frequently performing on par with batch and replay-buffer approaches.