Coherent Off-Policy Improvement of Large Behavior Models with Learned Rewards

作者: Christian Scherer, Joe Watson, Theo Gruner, Daniel Palenicek, Ingmar Posner, Jan Peters

分类: cs.LG

发布日期: 2026-06-01

备注: 13 pages, 7 figures

💡 一句话要点

利用学习奖励进行大型行为模型的一致性离策略改进，提升机器人操作性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 强化学习 逆强化学习 行为克隆 模仿学习 奖励函数学习 离策略学习

📋 核心要点

现有方法难以在稀疏奖励的机器人任务中高效地微调大型行为模型。
提出利用一致性模仿学习的逆强化学习方法，学习密集奖励函数以提升微调效率。
实验表明，该方法在复杂操作任务中优于基于稀疏奖励的强化学习基线。

📝 摘要（中文）

本文研究了如何利用强化学习（RL）进一步微调通过行为克隆（BC）从专家演示数据中学习的大型生成模型，以提高机器人控制策略的性能，尤其是在灵巧操作方面。针对稀疏奖励任务中RL算法优化效率低下的问题，探索了逆强化学习（IRL），通过从专家演示中学习密集奖励函数来降低RL微调的难度。特别地，本文考虑了一种名为一致性模仿学习的IRL方法，该方法通过特定的奖励函数公式及其理论保证来促进BC策略的改进。实验结果表明，该IRL方法在所有六个稀疏操作任务中保持或提高了pi-0.5的性能，并在六个复杂操作任务中的五个上实现了≥90%的成功率，优于使用稀疏奖励的基于RL的基线方法。通过确保初始预训练微调策略对于初始奖励和评论家是最优的，该方法避免了RL微调中常见的初始性能下降，并实现了更快的改进。

🔬 方法详解

问题定义：论文旨在解决在稀疏奖励的机器人操作任务中，如何高效地利用强化学习（RL）微调通过行为克隆（BC）预训练的大型行为模型的问题。现有方法，如直接使用RL微调，通常面临样本效率低下的挑战，尤其是在奖励信号稀疏的情况下，导致训练过程缓慢且不稳定。

核心思路：论文的核心思路是利用逆强化学习（IRL）从专家演示中学习一个密集的奖励函数，然后使用该奖励函数来指导RL微调过程。通过学习一个与专家行为一致的奖励函数，可以为RL算法提供更丰富、更有效的反馈信号，从而提高样本效率和训练稳定性。特别地，论文采用了“一致性模仿学习”框架，该框架保证了在学习到的奖励函数下，初始的BC策略是最优的，从而避免了RL微调中常见的初始性能下降问题。

技术框架：整体框架包含两个主要阶段：1) 使用行为克隆（BC）从专家演示数据中预训练一个大型行为模型；2) 使用一致性模仿学习（一个IRL方法）从专家演示中学习一个密集的奖励函数，并使用该奖励函数通过RL微调预训练的模型。具体流程是，首先利用专家数据训练一个初始策略和一个初始奖励函数。然后，通过RL算法，以学习到的奖励函数为目标，对策略进行微调。

关键创新：论文的关键创新在于将“一致性模仿学习”应用于大型行为模型的微调。与传统的IRL方法不同，“一致性模仿学习”通过特定的奖励函数公式，保证了初始策略在学习到的奖励函数下是最优的。这避免了RL微调中常见的“奖励函数改变导致策略性能下降”的问题，从而提高了微调的效率和稳定性。

关键设计：论文采用的奖励函数设计是关键。具体来说，奖励函数被设计为与策略的优势函数相关，从而保证了策略在当前奖励函数下的最优性。此外，论文还可能涉及到特定的网络结构设计，例如用于学习奖励函数的神经网络结构，以及用于策略微调的RL算法（例如，Actor-Critic算法）的具体参数设置。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在六个稀疏操作任务中保持或提高了pi-0.5的性能，并在六个复杂操作任务中的五个上实现了≥90%的成功率，显著优于使用稀疏奖励的基于RL的基线方法。该方法成功避免了RL微调中常见的初始性能下降，实现了更快的改进。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如自动化装配、物体抓取、复杂环境导航等。通过高效地利用专家数据和强化学习，可以显著降低机器人学习的成本和时间，加速机器人在实际场景中的部署。未来，该方法有望扩展到更复杂的任务和环境，实现更智能、更自主的机器人系统。

📄 摘要（原文）

Distilling expert demonstration data into large generative models using behavioral cloning is a scalable approach to learning capable policies for robotic control, particularly for dexterous manipulation. Reinforcement learning (RL) can be used as a means to finetune these policies further using additional experience. An open question is whether RL is more sample-efficient than collecting more human demonstrations. Prior work has finetuned large pretrained policies in a scalable fashion by applying RL to a smaller residual policy that corrects the pretrained model. However, for the typical sparse reward tasks, RL algorithms can struggle to optimize the behavior in a sample-efficient manner. We explore inverse reinforcement learning, where a dense reward function is learned from expert demonstrations, potentially reducing the challenge of RL finetuning. We specifically consider coherent imitation learning, an IRL method that facilitates improvement of the BC policy through using a specific reward formulation with theoretical guarantees. We show that our IRL method maintains or improves the performance of pi-0.5 on all six sparse manipulation tasks and achieves a $\geq 90\%$ success rate on five out of six complex manipulation tasks, outperforming RL-based baselines using sparse rewards. By ensuring our initial pretrained finetuning policy is optimal for our initial reward and critic, our method circumvents the initial drop commonly seen in RL finetuning and enables faster improvement.

Coherent Off-Policy Improvement of Large Behavior Models with Learned Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理