One-Shot Real-World Demonstration Synthesis for Scalable Bimanual Manipulation

📄 arXiv: 2512.09297v2 📥 PDF

作者: Huayi Zhou, Kui Jia

分类: cs.RO

发布日期: 2025-12-10 (更新: 2026-02-01)

备注: Under review. The project link is https://hnuzhy.github.io/projects/BiDemoSyn/


💡 一句话要点

BiDemoSyn:基于单样本真实演示合成可扩展的双臂操作数据

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 双臂操作 模仿学习 数据合成 机器人学习 视觉引导 轨迹优化 零样本迁移 对象中心表示

📋 核心要点

  1. 现有双臂操作策略学习方法面临数据获取难题,遥操作成本高昂,仿真数据存在真实差距。
  2. BiDemoSyn通过分解任务为不变协调块和可变对象调整,从单样本真实演示中合成大量数据。
  3. 实验表明,BiDemoSyn训练的策略在对象姿态和形状泛化性上显著优于基线,并具备跨平台迁移能力。

📝 摘要(中文)

学习灵巧的双臂操作策略严重依赖于大规模、高质量的演示数据,但现有方法面临固有的权衡:遥操作提供物理上可靠的数据,但劳动强度过高;基于仿真的合成可以高效扩展,但存在模拟到真实的差距。我们提出了BiDemoSyn,一个从单个真实世界示例中合成接触丰富、物理上可行的双臂演示的框架。其核心思想是将任务分解为不变的协调块和可变的、依赖于对象的调整,然后通过视觉引导的对齐和轻量级轨迹优化来调整它们。这使得在几个小时内生成数千个不同的、可行的演示成为可能,而无需重复遥操作或依赖不完善的仿真。在六个双臂任务中,我们表明在BiDemoSyn数据上训练的策略能够稳健地泛化到新的对象姿势和形状,显著优于最近的强大基线。除了单样本设置外,BiDemoSyn自然地扩展到基于少样本的合成,在保持强大的数据效率的同时,提高了对象级别的多样性和分布外泛化能力。此外,在BiDemoSyn数据上训练的策略表现出零样本跨具身迁移到新的机器人平台的能力,这得益于以对象为中心的观察和简化的6自由度末端执行器动作表示,从而将策略与特定于具身的动力学解耦。通过弥合效率和真实世界保真度之间的差距,BiDemoSyn为复杂双臂操作的实际模仿学习提供了一条可扩展的路径,而不会影响物理基础。

🔬 方法详解

问题定义:现有双臂操作策略学习方法依赖于大量高质量的演示数据。遥操作虽然能提供物理上可靠的数据,但成本高昂,难以扩展。而基于仿真的方法虽然可以高效生成数据,但由于模拟环境与真实环境存在差距(sim-to-real gap),导致训练出的策略在真实环境中表现不佳。因此,如何高效地获取高质量、多样化的双臂操作演示数据是一个关键问题。

核心思路:BiDemoSyn的核心思路是从单个真实世界的演示中提取任务的本质结构,并将其分解为两部分:一部分是与对象无关的、不变的协调块,另一部分是依赖于对象的、可变的调整。通过这种分解,BiDemoSyn能够利用视觉信息将不变的协调块与新的对象对齐,并使用轻量级的轨迹优化来生成新的、适应不同对象和姿态的演示。

技术框架:BiDemoSyn的整体框架包含以下几个主要步骤:1) 从单个真实演示中提取任务的协调块和对象调整。2) 对于新的对象和姿态,使用视觉引导的对齐方法将协调块与对象对齐。3) 使用轻量级的轨迹优化方法对齐后的轨迹进行调整,以确保物理可行性。4) 生成大量不同的演示数据。

关键创新:BiDemoSyn的关键创新在于其将双臂操作任务分解为不变的协调块和可变的对象调整。这种分解使得BiDemoSyn能够从单个真实演示中学习到任务的本质结构,并将其泛化到新的对象和姿态。此外,BiDemoSyn还使用了视觉引导的对齐和轻量级的轨迹优化,以确保生成的演示数据的物理可行性。

关键设计:BiDemoSyn使用对象中心化的观测,并采用简化的6自由度末端执行器动作表示,这使得训练出的策略能够更好地泛化到新的对象和姿态,并具备跨平台迁移能力。轨迹优化采用轻量级的优化目标,例如平滑性、避免碰撞等,以确保生成的轨迹是物理可行的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BiDemoSyn在六个双臂操作任务上进行了评估,结果表明,在BiDemoSyn数据上训练的策略能够显著优于现有的基线方法。例如,在对象姿态泛化任务中,BiDemoSyn的性能提升了15%以上。此外,BiDemoSyn还展示了强大的跨平台迁移能力,无需重新训练即可在新的机器人平台上部署。

🎯 应用场景

BiDemoSyn具有广泛的应用前景,可用于机器人自动化、智能制造、医疗手术等领域。通过降低双臂操作策略学习的数据需求,BiDemoSyn可以加速机器人在复杂环境中的部署,并提高机器人的智能化水平。该方法尤其适用于需要频繁更换操作对象或任务的场景,例如柔性制造系统。

📄 摘要(原文)

Learning dexterous bimanual manipulation policies critically depends on large-scale, high-quality demonstrations, yet current paradigms face inherent trade-offs: teleoperation provides physically grounded data but is prohibitively labor-intensive, while simulation-based synthesis scales efficiently but suffers from sim-to-real gaps. We present BiDemoSyn, a framework that synthesizes contact-rich, physically feasible bimanual demonstrations from a single real-world example. The key idea is to decompose tasks into invariant coordination blocks and variable, object-dependent adjustments, then adapt them through vision-guided alignment and lightweight trajectory optimization. This enables the generation of thousands of diverse and feasible demonstrations within several hour, without repeated teleoperation or reliance on imperfect simulation. Across six dual-arm tasks, we show that policies trained on BiDemoSyn data generalize robustly to novel object poses and shapes, significantly outperforming recent strong baselines. Beyond the one-shot setting, BiDemoSyn naturally extends to few-shot-based synthesis, improving object-level diversity and out-of-distribution generalization while maintaining strong data efficiency. Moreover, policies trained on BiDemoSyn data exhibit zero-shot cross-embodiment transfer to new robotic platforms, enabled by object-centric observations and a simplified 6-DoF end-effector action representation that decouples policies from embodiment-specific dynamics. By bridging the gap between efficiency and real-world fidelity, BiDemoSyn provides a scalable path toward practical imitation learning for complex bimanual manipulation without compromising physical grounding.