Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning

📄 arXiv: 2604.18978v1 📥 PDF

作者: Yuan Zhuang, Yuexin Bian, Sihong He, Jie Feng, Qing Su, Songyang Han, Jonathan Petit, Shihao Ji, Yuanyuan Shi, Fei Miao

分类: cs.LG, cs.AI

发布日期: 2026-04-21


💡 一句话要点

提出LoRA结构稀疏正则化方法,提升离线强化学习Critic学习的稳定性和性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 低秩适应 结构稀疏正则化 Critic学习 过拟合

📋 核心要点

  1. 离线强化学习中,增大Critic网络的容量是提升性能的有效途径,但容易导致过拟合和基于回放缓冲区的自举训练不稳定。
  2. 论文提出使用LoRA作为Critic网络的结构稀疏正则化器,通过冻结基础矩阵并仅优化低秩适配器来约束更新空间。
  3. 实验表明,该方法在DeepMind Control和IsaacLab等基准测试中,使用SAC和FastTD3算法时,均能降低Critic损失并提升策略性能。

📝 摘要(中文)

本文提出了一种利用低秩适应(LoRA)作为离线强化学习(RL)中Critic网络的结构稀疏正则化方法。该方法冻结随机初始化的基础矩阵,仅优化低秩适配器,从而将Critic的更新限制在低维子空间内。在SimbaV2的基础上,进一步开发了一种与SimbaV2兼容的LoRA公式,在冻结骨干网络训练下保持其超球面归一化几何结构。在DeepMind Control locomotion和IsaacLab robotics benchmarks上,使用SAC和FastTD3对该方法进行了评估。实验结果表明,LoRA在训练过程中始终能获得更低的Critic损失和更强的策略性能。大量实验表明,自适应低秩更新为离线RL中Critic学习提供了一种简单、可扩展且有效的结构正则化方法。

🔬 方法详解

问题定义:离线强化学习中,增大Critic网络的容量可以提升性能,但同时也带来了过拟合和训练不稳定的问题。传统的正则化方法可能无法有效地约束Critic网络的复杂性,尤其是在基于回放缓冲区的自举训练中,容易导致价值估计的偏差和方差增大。

核心思路:论文的核心思路是利用低秩适应(LoRA)来约束Critic网络的更新空间。LoRA通过冻结预训练或随机初始化的基础矩阵,并引入低秩适配器来学习任务特定的变化。这样,Critic网络的更新被限制在一个低维子空间内,从而降低了过拟合的风险,并提高了训练的稳定性。

技术框架:该方法建立在现有的离线强化学习算法(如SAC和FastTD3)之上。首先,初始化一个Critic网络,并随机初始化或使用预训练权重初始化其基础矩阵。然后,在Critic网络的每一层添加低秩适配器。在训练过程中,冻结基础矩阵的权重,只更新低秩适配器的权重。Critic网络的输出是基础矩阵和低秩适配器的输出之和。

关键创新:该方法最重要的创新点是将LoRA应用于离线强化学习中的Critic网络,并将其作为一种结构稀疏正则化器。与传统的权重衰减或dropout等正则化方法不同,LoRA通过约束更新空间来降低模型的复杂性,从而更有效地防止过拟合。此外,论文还提出了一种与SimbaV2兼容的LoRA公式,可以在冻结骨干网络训练下保持其超球面归一化几何结构。

关键设计:关键的设计包括:1) 低秩适配器的秩的选择:秩的大小决定了更新空间的维度,需要根据具体任务进行调整。2) 基础矩阵的初始化:可以使用随机初始化或预训练权重初始化基础矩阵。3) 损失函数:使用标准的时序差分(TD)损失函数来训练Critic网络。4) 优化器:使用Adam等优化器来更新低秩适配器的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LoRA在DeepMind Control locomotion和IsaacLab robotics benchmarks上,使用SAC和FastTD3算法时,均能降低Critic损失并提升策略性能。具体来说,LoRA能够显著降低Critic网络的训练损失,并提高策略的平均回报。与不使用LoRA的基线方法相比,LoRA能够获得更稳定和更优越的性能。

🎯 应用场景

该研究成果可应用于各种需要离线强化学习的场景,例如机器人控制、自动驾驶、推荐系统和金融交易等。通过使用LoRA来正则化Critic网络,可以提高离线强化学习算法的稳定性和性能,从而在实际应用中获得更好的效果。未来的研究可以探索将LoRA应用于其他强化学习算法和任务,并进一步优化LoRA的参数设置。

📄 摘要(原文)

Scaling critic capacity is a promising direction for enhancing off-policy reinforcement learning (RL). However, larger critics are prone to overfitting and unstable in replay-buffer-based bootstrap training. This paper leverages Low-Rank Adaptation (LoRA) as a structural-sparsity regularizer for off-policy critics. Our approach freezes randomly initialized base matrices and solely optimizes low-rank adapters, thereby constraining critic updates to a low-dimensional subspace. Built on top of SimbaV2, we further develop a LoRA formulation, compatible with SimbaV2, that preserves its hyperspherical normalization geometry under frozen-backbone training. We evaluate our method with SAC and FastTD3 on DeepMind Control locomotion and IsaacLab robotics benchmarks. LoRA consistently achieves lower critic loss during training and stronger policy performance. Extensive experiments demonstrate that adaptive low-rank updates provide a simple, scalable, and effective structural regularization for critic learning in off-policy RL.