MonoDuo: Using One Robot Arm to Learn Bimanual Policies
作者: Sandeep Bajamahal, Lawrence Yunliang Chen, Toru Lin, Zehan Ma, Jitendra Malik, Ken Goldberg
分类: cs.RO
发布日期: 2026-05-28
备注: Accepted to appear in the 2026 IEEE International Conference on Robotics and Automation (ICRA), Vienna, Austria, 1-5 June 2026
💡 一句话要点
MonoDuo:利用单臂机器人学习双臂操作策略,解决双臂机器人数据稀缺问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 双臂机器人 单臂机器人 机器人学习 模仿学习 数据增强
📋 核心要点
- 双臂机器人数据稀缺限制了双臂操作策略的学习,而单臂机器人广泛存在于研究实验室。
- MonoDuo框架通过单臂机器人演示和人类协作收集数据,并利用手部姿态估计等技术生成合成双臂演示。
- 实验表明,MonoDuo在零样本部署和少量样本微调方面均表现出色,显著提升了双臂操作的成功率。
📝 摘要(中文)
本文提出MonoDuo框架,旨在利用单臂机器人演示和人类协作学习双臂操作策略,解决双臂机器人和数据集稀缺的问题。MonoDuo通过遥操作单臂机器人执行双臂任务的一侧,同时人类执行另一侧来收集数据,然后交换角色以覆盖双侧。利用先进的手部姿态估计、图像和点云分割以及图像修复技术,将来自腕部相机和固定相机的RGB-D观测数据增强为目标双臂机器人的合成演示。这些基于真实机器人运动学的合成演示用于训练双臂策略。在箱子搬运、背包整理、衣物折叠、拉夹克拉链和盘子递送五个任务上的评估表明,与仅依赖人类双臂视频的方法相比,MonoDuo能够在未见过的双臂机器人配置上实现零样本部署,成功率高达70%。仅需25个目标机器人演示,少量样本微调即可将成功率在从头训练的基础上进一步提高65-70%,证明了MonoDuo在将知识从单臂机器人数据高效迁移到双臂机器人策略方面的有效性。
🔬 方法详解
问题定义:现有双臂机器人学习方法受限于双臂机器人和数据集的稀缺性,难以训练出有效的双臂操作策略。仅仅依赖人类双臂视频数据,难以适应不同的机器人构型,泛化性较差。
核心思路:利用广泛存在的单臂机器人,通过单臂机器人和人类协作完成双臂任务,并生成合成的双臂机器人演示数据。这种方法能够有效利用单臂机器人的数据,降低对真实双臂机器人数据的依赖。
技术框架:MonoDuo框架主要包含数据收集和策略训练两个阶段。数据收集阶段,通过遥操作单臂机器人和人类协作完成双臂任务,记录RGB-D数据。策略训练阶段,利用手部姿态估计、图像分割和图像修复等技术,将单臂机器人和人类的动作合成双臂机器人的演示数据,并用于训练双臂操作策略。
关键创新:MonoDuo的核心创新在于利用单臂机器人和人类协作生成合成双臂机器人演示数据,从而解决了双臂机器人数据稀缺的问题。这种方法能够将单臂机器人的知识迁移到双臂机器人上,实现高效的双臂操作策略学习。
关键设计:在数据收集阶段,使用腕部相机和固定相机获取RGB-D数据,以提供更全面的场景信息。在数据增强阶段,使用最先进的手部姿态估计、图像和点云分割以及图像修复技术,保证合成数据的质量。在策略训练阶段,使用基于真实机器人运动学的合成演示,保证策略的可行性。
🖼️ 关键图片
📊 实验亮点
MonoDuo在五个双臂操作任务上进行了评估,结果表明,与仅依赖人类双臂视频的方法相比,MonoDuo能够在未见过的双臂机器人配置上实现零样本部署,成功率高达70%。仅需25个目标机器人演示,少量样本微调即可将成功率在从头训练的基础上进一步提高65-70%。
🎯 应用场景
MonoDuo技术可应用于各种需要双臂协调操作的场景,如工业自动化中的装配、医疗手术中的辅助操作、家庭服务机器人中的物品整理等。该研究降低了双臂机器人策略学习的成本,加速了双臂机器人在实际场景中的应用。
📄 摘要(原文)
Bimanual coordination is essential for many real-world manipulation tasks, yet learning bimanual robot policies is limited by the scarcity of bimanual robots and datasets. Single-arm robots, however, are widely available in research labs. Can we leverage them to train bimanual robot policies? We present MonoDuo, a framework for learning bimanual manipulation policies using single-arm robot demonstrations paired with human collaboration. MonoDuo collects data by teleoperating a single-arm robot to perform one side of a bimanual task while a human performs the other, then swapping roles to cover both sides. RGB-D observations from a wrist-mounted and fixed camera are augmented into synthetic demonstrations for target bimanual robots using state-of-the-art hand pose estimation, image and point cloud segmentation, and inpainting. These synthetic demonstrations, grounded in real robot kinematics, are used to train bimanual policies. We evaluate MonoDuo on five tasks: box lifting, backpack packing, cloth folding, jacket zipping, and plate handover. Compared to approaches relying solely on human bimanual videos, MonoDuo enables zero-shot deployment on unseen bimanual robot configurations, achieving success rates up to 70%. With only 25 target robot demonstrations, few-shot finetuning further boosts success rates by 65-70% over training from scratch, demonstrating MonoDuo's effectiveness in efficiently transferring knowledge from single-arm robot data to bimanual robot policies.