Measuring Learning Progress via Gradient-Momentum Coupling
作者: Samuel Blad, Martin Längkvist, Amy Loutfi
分类: cs.LG
发布日期: 2026-05-07
备注: 23 pages, 15 figures, preprint
💡 一句话要点
提出梯度-动量耦合(GMC)方法,通过优化动力学量化学习进度以提升强化学习的探索效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 好奇心驱动探索 优化动力学 梯度分析 课程学习 噪声鲁棒性
📋 核心要点
- 现有好奇心驱动探索方法常依赖预测误差,难以有效区分环境中的随机噪声与可学习的模式,导致探索效率低下。
- 论文提出梯度-动量耦合(GMC)机制,利用优化过程中的梯度与动量信息,量化样本对模型参数更新的实际贡献度。
- 实验证明GMC具备优异的噪声鲁棒性,能引导智能体优先学习高价值任务,在MiniGrid任务中表现出比传统预测误差更强的性能。
📝 摘要(中文)
衡量学习进度对于强化学习中的好奇心驱动探索至关重要,但诸如预测误差等常用信号往往难以区分有意义的、可学习的模式与随机噪声。本文提出了梯度-动量耦合(GMC)方法,这是一种源自优化动力学的信号,通过测量每个样本的梯度与先前梯度动量之间的逐参数归一化绝对积,量化样本对持续学习的贡献。利用动量对噪声和震荡的天然过滤特性,GMC能够识别出有助于参数更新的样本。受控实验表明,该方法具有良好的噪声鲁棒性,并能涌现出课程学习效应,即优先处理学习速度快而非难度大的任务。在MiniGrid环境下的实验表明,将好奇心驱动架构中的预测误差替换为GMC,可显著提升系统对观测噪声的鲁棒性。
🔬 方法详解
问题定义:在强化学习中,智能体需要通过好奇心驱动来探索环境。现有方法多使用预测误差作为奖励信号,但该信号在面对高随机性环境(如电视噪声问题)时,无法区分“不可预测的随机性”与“尚未掌握的知识”,导致探索陷入无效区域。
核心思路:论文提出利用优化动力学本身作为学习进度的度量。核心逻辑在于:如果一个样本的梯度方向与历史动量方向高度一致,说明该样本正在推动模型向有效的参数空间移动,即该样本具有较高的“学习价值”。
技术框架:GMC通过计算当前样本梯度与优化器动量项的逐参数归一化绝对积来生成信号。该过程无需额外的预测模型,直接嵌入在反向传播的优化流程中,通过对梯度的过滤,提取出对参数更新有实质贡献的信号。
关键创新:GMC将“学习进度”的定义从“预测准确度”转向“优化动力学的贡献度”。这种方法利用动量作为低通滤波器,天然抑制了随机噪声带来的梯度震荡,从而实现了对可学习模式的精准捕捉。
关键设计:该方法通过逐参数(per-parameter)的归一化处理,确保了不同层级梯度幅值的可比性。通过计算绝对积,GMC能够识别出无论正负方向上对动量有增强作用的梯度,从而有效量化样本的贡献。
🖼️ 关键图片
📊 实验亮点
实验结果显示,GMC在MiniGrid环境中表现出显著的噪声鲁棒性。与传统的预测误差方法相比,GMC能够有效过滤环境噪声,引导智能体优先关注学习速度快(即学习增益高)的任务,而非仅仅关注难度大的任务。在受控实验中,GMC展现了涌现的课程学习特性,在复杂观测噪声干扰下,其任务完成效率与收敛稳定性均优于基线模型。
🎯 应用场景
该方法主要应用于强化学习中的好奇心驱动探索,特别是在观测空间存在高噪声、随机性强的复杂环境中。其核心价值在于提升智能体在稀疏奖励环境下的探索效率,未来可广泛应用于机器人控制、自动化决策系统以及需要自主学习的智能代理中,增强其在动态环境下的鲁棒性。
📄 摘要(原文)
Measuring learning progress is essential for curiosity-driven exploration in reinforcement learning, but widely used signals such as prediction error often fail to distinguish meaningful, learnable patterns from random noise. This paper proposes Gradient-Momentum Coupling (GMC), a signal derived from optimization dynamics that quantifies how useful each sample's gradient is for ongoing learning by measuring its per-parameter normalized absolute product with the momentum from previous gradients. By leveraging momentum's natural filtering of noise and oscillations, GMC identifies samples that contribute to ongoing parameter updates. Controlled experiments demonstrate noise robustness and emergent curriculum learning, with the signal prioritizing tasks by learning speed rather than difficulty. Experiments on MiniGrid suggest that replacing prediction error with GMC within existing curiosity-driven architectures can improve robustness to observation noise.