Residual Off-Policy RL for Finetuning Behavior Cloning Policies

📄 arXiv: 2509.19301v2 📥 PDF

作者: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi

分类: cs.RO, cs.LG

发布日期: 2025-09-23 (更新: 2025-09-25)

备注: Project website: https://residual-offpolicy-rl.github.io


💡 一句话要点

提出残差离线强化学习,微调行为克隆策略,实现高自由度机器人灵巧操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 残差学习 强化学习 行为克隆 机器人操作 离线学习

📋 核心要点

  1. 现有行为克隆方法依赖高质量人工数据,且数据收集成本高昂,离线数据利用率存在瓶颈。
  2. 该论文提出一种残差学习框架,利用行为克隆策略作为基础,通过离线强化学习学习残差校正。
  3. 实验表明,该方法仅需稀疏奖励信号,即可有效提升高自由度机器人的操作策略,并在真实人形机器人上取得成功。

📝 摘要(中文)

行为克隆(BC)的最新进展已经实现了令人印象深刻的视觉运动控制策略。然而,这些方法受到人类演示质量、数据收集所需的人工以及离线数据收益递减的限制。相比之下,强化学习(RL)通过与环境的自主交互来训练智能体,并在各个领域取得了显著成功。然而,由于样本效率低、安全问题以及在高自由度(DoF)系统的长时程任务中从稀疏奖励中学习的难度,直接在真实机器人上训练RL策略仍然具有挑战性。我们提出了一种通过残差学习框架结合BC和RL优势的方法。我们的方法利用BC策略作为黑盒基础,并通过样本高效的离线RL学习轻量级的每步残差校正。我们证明了我们的方法只需要稀疏的二元奖励信号,并且可以有效地改进模拟和真实世界中高自由度系统的操作策略。特别是,据我们所知,我们展示了第一个在具有灵巧手的人形机器人上成功进行真实世界RL训练的案例。我们的结果表明在各种基于视觉的任务中具有最先进的性能,为在真实世界中部署RL提供了一条可行的途径。

🔬 方法详解

问题定义:现有行为克隆方法依赖于高质量的人工示教数据,数据收集成本高,且离线数据的利用存在收益递减的问题。直接在真实机器人上训练强化学习策略,面临样本效率低、安全问题以及难以从稀疏奖励中学习长时程任务的挑战,尤其是在高自由度机器人上。

核心思路:该论文的核心思路是结合行为克隆和强化学习的优点,利用行为克隆策略作为基础策略,然后通过强化学习来学习一个残差策略,对行为克隆策略的输出进行修正。这样既可以利用行为克隆策略的先验知识,又可以通过强化学习来进一步提升策略的性能,同时降低了对样本效率的要求。

技术框架:整体框架包含两个主要部分:行为克隆策略和残差强化学习模块。行为克隆策略作为基础策略,直接从离线数据中学习。残差强化学习模块则学习一个残差策略,该策略的输出与行为克隆策略的输出相加,得到最终的动作。整个训练过程是离线的,即残差强化学习模块的训练不依赖于与环境的在线交互。

关键创新:该论文的关键创新在于将残差学习的思想引入到行为克隆和强化学习的结合中。通过学习残差策略,可以有效地利用行为克隆策略的先验知识,同时避免了直接从头开始训练强化学习策略的困难。此外,该方法只需要稀疏的二元奖励信号,降低了对奖励函数设计的依赖。

关键设计:残差强化学习模块使用off-policy的强化学习算法进行训练,例如SAC或者TD3。奖励函数的设计至关重要,通常采用稀疏的二元奖励,例如成功完成任务则奖励1,否则奖励0。网络结构方面,残差策略通常采用轻量级的网络结构,以保证样本效率。行为克隆策略可以使用任何现有的行为克隆方法进行训练,例如BC、GAIL等。

📊 实验亮点

该论文在真实人形机器人上成功进行了强化学习训练,据作者所知是首次。实验结果表明,该方法在各种基于视觉的任务中取得了最先进的性能,并且只需要稀疏的二元奖励信号。与直接使用行为克隆策略相比,该方法能够显著提升策略的性能。

🎯 应用场景

该研究成果可应用于各种需要高精度和复杂操作的机器人任务,例如工业自动化、医疗手术、家庭服务等。通过结合行为克隆和强化学习,可以降低机器人部署的成本和难度,使其能够更好地适应真实世界的复杂环境。该方法在人形机器人上的成功应用,也为未来人形机器人的发展奠定了基础。

📄 摘要(原文)

Recent advances in behavior cloning (BC) have enabled impressive visuomotor control policies. However, these approaches are limited by the quality of human demonstrations, the manual effort required for data collection, and the diminishing returns from offline data. In comparison, reinforcement learning (RL) trains an agent through autonomous interaction with the environment and has shown remarkable success in various domains. Still, training RL policies directly on real-world robots remains challenging due to sample inefficiency, safety concerns, and the difficulty of learning from sparse rewards for long-horizon tasks, especially for high-degree-of-freedom (DoF) systems. We present a recipe that combines the benefits of BC and RL through a residual learning framework. Our approach leverages BC policies as black-box bases and learns lightweight per-step residual corrections via sample-efficient off-policy RL. We demonstrate that our method requires only sparse binary reward signals and can effectively improve manipulation policies on high-degree-of-freedom (DoF) systems in both simulation and the real world. In particular, we demonstrate, to the best of our knowledge, the first successful real-world RL training on a humanoid robot with dexterous hands. Our results demonstrate state-of-the-art performance in various vision-based tasks, pointing towards a practical pathway for deploying RL in the real world.