Hyperspherical Normalization for Scalable Deep Reinforcement Learning

📄 arXiv: 2502.15280v2 📥 PDF

作者: Hojoon Lee, Youngdo Lee, Takuma Seno, Donghu Kim, Peter Stone, Jaegul Choo

分类: cs.LG

发布日期: 2025-02-21 (更新: 2025-05-29)

备注: 50 pages. ICML'25 (spotlight)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SimbaV2通过超球面归一化和奖励缩放,提升深度强化学习在大模型上的可扩展性和稳定性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 超球面归一化 奖励缩放 软演员-评论家 连续控制 模型扩展 优化稳定

📋 核心要点

  1. 现有强化学习方法难以在大模型上扩展,因为在非平稳数据上训练容易导致过拟合和不稳定的优化。
  2. SimbaV2通过超球面归一化约束权重和特征范数,并使用奖励缩放的分布价值估计来稳定梯度,从而解决上述问题。
  3. 实验结果表明,SimbaV2能够有效扩展到更大的模型和更高的计算量,并在多个连续控制任务上取得了领先的性能。

📝 摘要(中文)

本文提出了一种名为SimbaV2的新型强化学习(RL)架构,旨在稳定优化过程,从而提升模型在大规模场景下的性能。SimbaV2通过以下两种方式实现这一目标:(i) 利用超球面归一化约束权重和特征范数的增长;(ii) 采用带有奖励缩放的分布价值估计,以在不同奖励幅度下维持稳定的梯度。以软演员-评论家算法(soft actor-critic)为基础算法,SimbaV2能够有效地扩展到更大的模型和更高的计算量,在跨越4个领域的57个连续控制任务上实现了最先进的性能。代码已开源。

🔬 方法详解

问题定义:深度强化学习模型在扩展到更大规模时,常常面临训练不稳定和过拟合的问题。这是因为强化学习训练数据是非平稳的,并且奖励的尺度可能变化很大,导致梯度爆炸或消失,最终影响模型的收敛性和泛化能力。现有方法难以有效地解决这些问题,限制了深度强化学习在大规模任务上的应用。

核心思路:SimbaV2的核心思路是通过约束权重和特征的范数,以及稳定奖励的尺度,来缓解训练过程中的不稳定因素。具体来说,超球面归一化可以限制权重和特征的增长,防止梯度爆炸;奖励缩放可以使不同尺度的奖励具有相似的梯度幅度,从而避免梯度消失或爆炸。

技术框架:SimbaV2以软演员-评论家(SAC)算法为基础,主要包含以下模块:1) 演员网络,用于生成策略;2) 评论家网络,用于评估策略的价值;3) 超球面归一化层,用于约束权重和特征的范数;4) 奖励缩放模块,用于调整奖励的尺度;5) 分布式价值估计,用于更准确地估计价值分布。训练过程包括策略评估、策略改进和模型更新三个阶段。

关键创新:SimbaV2的关键创新在于将超球面归一化和奖励缩放技术引入到深度强化学习中。超球面归一化可以有效地约束权重和特征的范数,防止梯度爆炸,而奖励缩放可以稳定奖励的尺度,避免梯度消失或爆炸。这两种技术的结合,使得SimbaV2能够更稳定地训练大规模深度强化学习模型。

关键设计:超球面归一化层通常放置在网络的关键层,例如全连接层或卷积层之后。奖励缩放模块使用一个可学习的参数来缩放奖励,该参数通过最小化缩放后奖励的方差来学习。分布式价值估计使用多个分位数来表示价值分布,从而更准确地估计价值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SimbaV2在57个连续控制任务上进行了评估,结果表明其性能显著优于现有的强化学习算法。具体来说,SimbaV2在多个任务上取得了state-of-the-art的性能,并且能够有效地扩展到更大的模型和更高的计算量。例如,在某些任务上,SimbaV2的性能比SAC算法提高了超过50%。

🎯 应用场景

SimbaV2的潜在应用领域包括机器人控制、自动驾驶、游戏AI和金融交易等。通过稳定大规模深度强化学习模型的训练,SimbaV2可以提升这些领域中智能体的性能和鲁棒性,使其能够更好地适应复杂和动态的环境。未来,SimbaV2可以进一步扩展到其他强化学习算法和任务中,推动强化学习技术的发展。

📄 摘要(原文)

Scaling up the model size and computation has brought consistent performance improvements in supervised learning. However, this lesson often fails to apply to reinforcement learning (RL) because training the model on non-stationary data easily leads to overfitting and unstable optimization. In response, we introduce SimbaV2, a novel RL architecture designed to stabilize optimization by (i) constraining the growth of weight and feature norm by hyperspherical normalization; and (ii) using a distributional value estimation with reward scaling to maintain stable gradients under varying reward magnitudes. Using the soft actor-critic as a base algorithm, SimbaV2 scales up effectively with larger models and greater compute, achieving state-of-the-art performance on 57 continuous control tasks across 4 domains. The code is available at https://dojeon-ai.github.io/SimbaV2.