Human-in-the-loop Online Rejection Sampling for Robotic Manipulation
作者: Guanxing Lu, Rui Zhao, Haitao Lin, He Zhang, Yansong Tang
分类: cs.RO, cs.AI
发布日期: 2025-10-30
备注: 8 pages
💡 一句话要点
提出Hi-ORS,通过在线拒绝采样提升机器人操作的强化学习稳定性与鲁棒性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 强化学习 模仿学习 拒绝采样 人机回路 视觉-语言-动作模型 在线学习
📋 核心要点
- 现有强化学习微调VLA模型时,价值估计不准和监督稀疏导致训练不稳定,而模仿学习又受限于离线数据。
- Hi-ORS通过在线拒绝采样过滤负奖励样本,稳定价值估计,并使用奖励加权监督学习提供密集中间步骤监督。
- 实验表明,Hi-ORS仅需1.5小时真实训练即可显著优于RL和IL基线,并展现出强大的错误恢复能力和泛化性。
📝 摘要(中文)
强化学习(RL)广泛应用于生成鲁棒的机器人操作策略,但使用RL微调视觉-语言-动作(VLA)模型可能不稳定,因为价值估计不准确,且中间步骤的监督稀疏。相比之下,模仿学习(IL)易于训练,但由于其离线特性,性能通常较差。本文提出Hi-ORS,一种简单而有效的后训练方法,利用拒绝采样来实现训练稳定性和高鲁棒性。Hi-ORS通过过滤在线微调期间的负奖励样本来稳定价值估计,并采用奖励加权的监督训练目标来提供密集的中间步骤监督。为了进行系统研究,我们开发了一个异步推理-训练框架,该框架支持灵活的在线人机回路校正,作为学习错误恢复行为的显式指导。在三个真实世界的任务和两个机器人平台上,Hi-ORS仅用1.5小时的真实世界训练即可微调一个pi-base策略,从而掌握接触丰富的操作,在有效性和效率方面均优于RL和IL基线。值得注意的是,微调后的策略表现出强大的测试时可扩展性,通过可靠地执行复杂的错误恢复行为来实现更好的性能。
🔬 方法详解
问题定义:论文旨在解决机器人操作中,强化学习微调视觉-语言-动作模型时训练不稳定,以及模仿学习泛化性不足的问题。现有强化学习方法在中间步骤的监督信号稀疏,价值估计不准确,导致训练过程波动较大。而模仿学习依赖于离线数据,无法适应真实环境中的变化和扰动。
核心思路:论文的核心思路是结合强化学习的在线学习能力和模仿学习的稳定性,通过在线拒绝采样来过滤掉负奖励的样本,从而稳定价值估计,并利用奖励加权的监督学习目标来提供密集的中间步骤监督。这种方法既能利用在线数据进行学习,又能避免负面样本对训练过程的干扰。
技术框架:Hi-ORS包含一个异步推理-训练框架。首先,使用一个预训练的策略(pi-base)作为初始策略。然后,在真实环境中进行在线交互,收集样本。在训练过程中,使用拒绝采样过滤掉负奖励的样本,并使用奖励加权的监督学习目标来更新策略。同时,允许人工干预,对错误行为进行纠正,并将纠正后的数据用于训练,以学习错误恢复行为。推理和训练异步进行,保证了训练效率。
关键创新:Hi-ORS的关键创新在于将在线拒绝采样与奖励加权的监督学习相结合,用于机器人操作策略的微调。与传统的强化学习方法相比,Hi-ORS能够更稳定地进行训练,并学习到更鲁棒的策略。此外,引入人机回路校正,显式地指导策略学习错误恢复行为,进一步提升了策略的泛化能力。
关键设计:Hi-ORS使用奖励加权的交叉熵损失作为监督学习目标,奖励越高,对应的样本权重越大。拒绝采样的阈值可以根据任务的难度进行调整。异步推理-训练框架的设计保证了训练效率,同时允许在线人工干预。具体网络结构和参数设置取决于所使用的VLA模型。
📊 实验亮点
Hi-ORS在三个真实世界的机器人操作任务中,仅用1.5小时的真实世界训练,就显著优于RL和IL基线。例如,在某项任务中,Hi-ORS的成功率比RL基线提高了20%以上,并且展现出强大的测试时可扩展性,能够可靠地执行复杂的错误恢复行为,进一步提升性能。
🎯 应用场景
Hi-ORS具有广泛的应用前景,可用于各种需要高鲁棒性和稳定性的机器人操作任务,例如:工业自动化中的装配、分拣,家庭服务机器人中的物品整理、清洁,以及医疗机器人中的辅助手术等。该方法能够显著降低机器人部署的难度和成本,提高机器人的智能化水平。
📄 摘要(原文)
Reinforcement learning (RL) is widely used to produce robust robotic manipulation policies, but fine-tuning vision-language-action (VLA) models with RL can be unstable due to inaccurate value estimates and sparse supervision at intermediate steps. In contrast, imitation learning (IL) is easy to train but often underperforms due to its offline nature. In this paper, we propose Hi-ORS, a simple yet effective post-training method that utilizes rejection sampling to achieve both training stability and high robustness. Hi-ORS stabilizes value estimation by filtering out negatively rewarded samples during online fine-tuning, and adopts a reward-weighted supervised training objective to provide dense intermediate-step supervision. For systematic study, we develop an asynchronous inference-training framework that supports flexible online human-in-the-loop corrections, which serve as explicit guidance for learning error-recovery behaviors. Across three real-world tasks and two embodiments, Hi-ORS fine-tunes a pi-base policy to master contact-rich manipulation in just 1.5 hours of real-world training, outperforming RL and IL baselines by a substantial margin in both effectiveness and efficiency. Notably, the fine-tuned policy exhibits strong test-time scalability by reliably executing complex error-recovery behaviors to achieve better performance.