Balancing Expressivity and Robustness: Constrained Rational Activations for Reinforcement Learning
作者: Rafał Surdej, Michał Bortkiewicz, Alex Lewandowski, Mateusz Ostaszewski, Clare Lyle
分类: cs.LG
发布日期: 2025-07-19
备注: Accepted for oral presentation at CoLLAs 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出约束理性激活函数,平衡强化学习中的表达性和鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 理性激活函数 强化学习 持续学习 训练稳定性 约束优化
📋 核心要点
- 现有可训练理性激活函数在强化学习中表现出高适应性,但训练稳定性不足,易导致过估计和特征崩溃。
- 提出一种约束理性激活函数,通过结构性约束限制过度输出缩放,在表达性和鲁棒性之间取得平衡。
- 在MetaWorld和DMC等连续控制任务以及持续学习任务中,验证了该方法能提升训练稳定性和性能。
📝 摘要(中文)
本文研究了可训练的理性激活函数在强化学习和持续学习中的应用。研究发现,虽然其灵活性增强了适应性,但也可能引入不稳定性,导致强化学习中的过度估计和长期持续学习场景中的特征崩溃。主要结果表明,理性激活函数的表达性和可塑性之间存在权衡。为了解决这个问题,本文提出了一种约束变体,该变体在结构上限制了过度的输出缩放,同时保留了适应性。在MetaWorld和DeepMind Control Suite (DMC) 环境中的实验表明,该方法提高了训练稳定性和性能。在包括重新洗牌标签的MNIST和Split CIFAR-100在内的持续学习基准测试中,揭示了不同的约束如何影响表达性和长期保留之间的平衡。虽然在离散动作领域(例如,Atari)的初步实验没有显示出类似的不稳定性,但这表明这种权衡对于连续控制尤其重要。总之,这些发现为动态、非平稳环境中稳健且适应性强的可训练激活函数提供了可操作的设计原则。
🔬 方法详解
问题定义:论文旨在解决强化学习和持续学习中,可训练理性激活函数带来的训练不稳定问题。现有方法虽然具有很强的表达能力和适应性,但容易导致强化学习中的价值过估计和持续学习中的特征崩溃,影响学习效果。
核心思路:论文的核心思路是在理性激活函数中引入约束,限制其输出的过度缩放,从而在表达能力和训练稳定性之间取得平衡。通过约束激活函数的输出范围,防止其在训练过程中产生过大的梯度或激活值,从而避免不稳定现象。
技术框架:论文提出的方法主要是在现有的理性激活函数的基础上,增加一个约束项。具体来说,理性激活函数通常表示为两个多项式的比值,论文通过限制多项式系数的范围或增加正则化项来约束其输出。整体训练流程与标准的强化学习或持续学习流程类似,只是在激活函数部分使用了约束理性激活函数。
关键创新:关键创新在于提出了约束理性激活函数的概念,并设计了具体的约束方法。与传统的理性激活函数相比,约束理性激活函数能够在保持一定表达能力的同时,显著提高训练的稳定性。这种约束机制能够有效地防止价值过估计和特征崩溃等问题。
关键设计:论文中关键的设计包括约束的具体形式,例如限制多项式系数的绝对值或使用L1/L2正则化。此外,损失函数的设计也需要考虑约束的影响,可能需要增加额外的正则化项来鼓励约束的执行。具体的网络结构和参数设置则根据不同的任务和环境进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在MetaWorld和DMC等连续控制任务中,所提出的约束理性激活函数能够显著提高训练的稳定性和性能。例如,在某些任务中,智能体的平均回报提高了10%以上。此外,在持续学习任务中,该方法也能够有效地防止特征崩溃,并提高模型的长期保留能力。
🎯 应用场景
该研究成果可应用于各种需要自适应学习的控制任务,例如机器人控制、自动驾驶和游戏AI。通过使用约束理性激活函数,可以提高智能体在动态和非平稳环境中的学习效率和鲁棒性。此外,该方法在持续学习领域也具有潜在的应用价值,可以帮助模型更好地适应不断变化的任务分布,并避免灾难性遗忘。
📄 摘要(原文)
Trainable activation functions, whose parameters are optimized alongside network weights, offer increased expressivity compared to fixed activation functions. Specifically, trainable activation functions defined as ratios of polynomials (rational functions) have been proposed to enhance plasticity in reinforcement learning. However, their impact on training stability remains unclear. In this work, we study trainable rational activations in both reinforcement and continual learning settings. We find that while their flexibility enhances adaptability, it can also introduce instability, leading to overestimation in RL and feature collapse in longer continual learning scenarios. Our main result is demonstrating a trade-off between expressivity and plasticity in rational activations. To address this, we propose a constrained variant that structurally limits excessive output scaling while preserving adaptability. Experiments across MetaWorld and DeepMind Control Suite (DMC) environments show that our approach improves training stability and performance. In continual learning benchmarks, including MNIST with reshuffled labels and Split CIFAR-100, we reveal how different constraints affect the balance between expressivity and long-term retention. While preliminary experiments in discrete action domains (e.g., Atari) did not show similar instability, this suggests that the trade-off is particularly relevant for continuous control. Together, our findings provide actionable design principles for robust and adaptable trainable activations in dynamic, non-stationary environments. Code available at: https://github.com/special114/rl_rational_plasticity.