Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections

作者: Xiaomeng Xu, Yifan Hou, Zeyi Liu, Shuran Song

分类: cs.RO, cs.LG

发布日期: 2025-06-20 (更新: 2025-12-11)

💡 一句话要点

提出Compliant Residual DAgger以解决真实环境中接触丰富的操作问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 接触丰富操作 人机协作 策略学习 合规控制 机器人学习

📋 核心要点

现有的DAgger方法在收集人类修正数据和有效更新策略方面存在挑战，尤其是在接触丰富的操作任务中。
提出的CR-DAgger通过合规干预接口和合规残差策略，允许人类在机器人执行任务时提供实时修正，提升了学习效率。
实验结果表明，CR-DAgger在书本翻转和皮带组装任务中，成功率提高超过50%，优于传统的从头训练和微调方法。

📝 摘要（中文）

本文针对真实环境中接触丰富的操作任务中的数据集聚合（DAgger）面临的关键挑战，提出了Compliant Residual DAgger（CR-DAgger）。该方法包括两个创新组件：1）合规干预接口，利用合规控制，使人类能够在不打断机器人政策执行的情况下提供温和、准确的增量动作修正；2）合规残差策略的制定，能够在学习人类修正的同时，结合力反馈和力控制。通过使用最少的修正数据，我们的系统显著提升了在精确接触丰富操作任务上的表现，在书本翻转和皮带组装两个具有挑战性的任务中，基础策略的成功率提高了超过50%。

🔬 方法详解

问题定义：本文旨在解决在真实环境中进行接触丰富操作时，如何有效收集人类修正数据和更新策略的问题。现有方法在这方面的表现不足，难以适应复杂的操作场景。

核心思路：CR-DAgger的核心思路是通过合规干预接口和合规残差策略，允许人类在机器人执行任务时提供实时的、温和的修正，从而提高策略的学习效率和适应性。

技术框架：该方法的整体架构包括两个主要模块：合规干预接口和合规残差策略。合规干预接口负责接收人类的修正输入，而合规残差策略则在学习过程中结合力反馈进行策略更新。

关键创新：CR-DAgger的关键创新在于合规干预接口的设计，使得人类可以在不打断机器人操作的情况下进行修正，这一设计显著提高了人机协作的效率。

关键设计：在技术细节上，合规干预接口采用了力控制机制，确保修正动作的精确性和安全性。同时，合规残差策略通过引入力反馈，增强了对环境变化的适应能力。具体的损失函数和网络结构设计也经过优化，以提升学习效果。

📊 实验亮点

实验结果显示，CR-DAgger在书本翻转和皮带组装任务中，基础策略的成功率提高超过50%。与传统的从头训练和微调方法相比，CR-DAgger在数据利用效率和任务成功率上均表现出显著优势。

🎯 应用场景

该研究的潜在应用领域包括工业机器人、服务机器人以及任何需要与人类协作的自动化系统。通过提高机器人在复杂环境中的操作能力，CR-DAgger能够显著提升生产效率和安全性，未来可能在智能制造和家庭自动化等领域产生深远影响。

📄 摘要（原文）

We address key challenges in Dataset Aggregation (DAgger) for real-world contact-rich manipulation: how to collect informative human correction data and how to effectively update policies with this new data. We introduce Compliant Residual DAgger (CR-DAgger), which contains two novel components: 1) a Compliant Intervention Interface that leverages compliance control, allowing humans to provide gentle, accurate delta action corrections without interrupting the ongoing robot policy execution; and 2) a Compliant Residual Policy formulation that learns from human corrections while incorporating force feedback and force control. Our system significantly enhances performance on precise contact-rich manipulation tasks using minimal correction data, improving base policy success rates by over 50\% on two challenging tasks (book flipping and belt assembly) while outperforming both retraining-from-scratch and finetuning approaches. Through extensive real-world experiments, we provide practical guidance for implementing effective DAgger in real-world robot learning tasks. Result videos are available at: https://compliant-residual-dagger.github.io/

Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册