WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

📄 arXiv: 2604.11351v1 📥 PDF

作者: Anlan Yu, Zaishu Chen, Peili Song, Zhiqing Hong, Haotian Wang, Desheng Zhang, Tian He, Yi Ding, Daqing Zhang

分类: cs.RO

发布日期: 2026-04-13

🔗 代码/项目: GITHUB


💡 一句话要点

提出WM-DAgger以解决模仿学习中的数据聚合问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 数据聚合 世界模型 机器人操作 纠正动作合成 一致性引导过滤 分布外状态 自动化

📋 核心要点

  1. 现有的模仿学习方法在处理分布外状态时容易产生累积误差,导致机器人性能下降。
  2. WM-DAgger通过世界模型合成恢复数据,减少对人类参与的依赖,从而提高数据聚合的效率。
  3. 实验结果表明,WM-DAgger在软袋推送任务中成功率达到93.3%,仅需五次示范,显著提升了任务成功率。

📝 摘要(中文)

模仿学习是一种强大的机器人策略训练范式,但其性能受到累积误差的限制:轻微的策略不准确可能导致机器人进入训练集中未见的分布外状态,从而产生更大的错误,最终导致失败。虽然数据聚合(DAgger)框架试图解决此问题,但其对持续人类参与的依赖严重限制了可扩展性。本文提出WM-DAgger,一个高效的数据聚合框架,利用世界模型合成无需人类参与的分布外恢复数据。我们专注于具有少量示范的眼手协调机器人手臂的操作任务。为避免合成误导性数据并克服世界模型固有的幻觉问题,我们的框架引入了两个关键机制:1)纠正动作合成模块生成任务导向的恢复动作,2)一致性引导过滤模块通过将合成的终端帧锚定到相应的真实帧来丢弃物理上不合理的轨迹。我们在多个真实世界的机器人任务上广泛验证了WM-DAgger。

🔬 方法详解

问题定义:本文旨在解决模仿学习中由于策略不准确导致的累积误差问题,现有的DAgger方法依赖于人类持续参与,限制了其可扩展性。

核心思路:WM-DAgger通过利用世界模型合成分布外恢复数据,避免了对人类的依赖,同时引入纠正动作合成和一致性引导过滤机制,以确保生成数据的有效性和可靠性。

技术框架:WM-DAgger的整体架构包括两个主要模块:纠正动作合成模块和一致性引导过滤模块。前者负责生成任务导向的恢复动作,后者则通过对比真实示范来过滤不合理的轨迹。

关键创新:该框架的创新之处在于通过世界模型合成数据,显著降低了对人类示范的需求,并通过两个模块确保生成数据的质量,克服了传统方法的局限性。

关键设计:在设计中,纠正动作合成模块使用特定的损失函数来优化恢复动作的生成,而一致性引导过滤模块则通过对比真实帧和合成帧来评估轨迹的物理合理性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,WM-DAgger在软袋推送任务中取得了93.3%的成功率,仅需五次示范,相较于传统DAgger方法显著提升了任务成功率,展示了其在实际应用中的有效性和优势。

🎯 应用场景

WM-DAgger的研究成果在机器人操作、自动化制造和人机协作等领域具有广泛的应用潜力。通过减少对人类示范的依赖,该方法可以加速机器人学习过程,提高其在复杂环境中的适应能力,未来可能推动更智能的机器人系统的发展。

📄 摘要(原文)

Imitation learning is a powerful paradigm for training robotic policies, yet its performance is limited by compounding errors: minor policy inaccuracies could drive robots into unseen out-of-distribution (OOD) states in the training set, where the policy could generate even bigger errors, leading to eventual failures. While the Data Aggregation (DAgger) framework tries to address this issue, its reliance on continuous human involvement severely limits scalability. In this paper, we propose WM-DAgger, an efficient data aggregation framework that leverages World Models to synthesize OOD recovery data without requiring human involvement. Specifically, we focus on manipulation tasks with an eye-in-hand robotic arm and only few-shot demonstrations. To avoid synthesizing misleading data and overcome the hallucination issues inherent to World Models, our framework introduces two key mechanisms: (1) a Corrective Action Synthesis Module that generates task-oriented recovery actions to prevent misleading supervision, and (2) a Consistency-Guided Filtering Module that discards physically implausible trajectories by anchoring terminal synthesized frames to corresponding real frames in expert demonstrations. We extensively validate WM-DAgger on multiple real-world robotic tasks. Results that our method significantly improves success rates, achieving a 93.3\% success rate in soft bag pushing with only five demonstrations. The source code is publicly available at https://github.com/czs12354-xxdbd/WM-Dagger.