RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation
作者: Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2024-10-10 (更新: 2025-03-01)
备注: 10 pages, conference
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出RDT-1B:用于双臂操作的扩散模型,解决多模态动作分布和数据稀缺问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 双臂操作 扩散模型 机器人学习 Transformer 多模态 零样本泛化 动作空间 预训练
📋 核心要点
- 双臂操作复杂性高,动作分布多模态,现有方法难以有效建模。
- RDT利用扩散模型处理多模态,设计Transformer架构应对异构输入和高频数据。
- RDT通过统一动作空间实现跨机器人知识迁移,并在真实机器人上验证了其优越性。
📝 摘要(中文)
本文提出了一种名为机器人扩散Transformer (RDT) 的开创性扩散基础模型,用于双臂操作。RDT基于扩散模型,有效表示多模态,并创新性地设计了一个可扩展的Transformer,以处理多模态输入的异构性,并捕捉机器人数据中的非线性和高频特性。为了解决数据稀缺问题,本文进一步引入了一种物理可解释的统一动作空间,该空间可以统一各种机器人的动作表示,同时保留原始动作的物理意义,从而促进可转移的物理知识学习。通过这些设计,RDT在迄今为止最大的多机器人数据集集合上进行了预训练,并扩展到12亿参数,成为最大的基于扩散的机器人操作基础模型。最后,RDT在一个自建的包含6000多个episode的多任务双臂数据集上进行了微调,以完善其操作能力。在真实机器人上的实验表明,RDT明显优于现有方法,展现了对未见物体的零样本泛化能力,能够理解并遵循语言指令,仅需1~5个演示即可学习新技能,并能有效处理复杂、灵巧的任务。
🔬 方法详解
问题定义:双臂操作任务复杂,涉及两个机械臂的协调,导致动作分布呈现多模态特性。同时,机器人操作数据稀缺,难以训练出泛化能力强的模型。现有方法难以有效处理多模态动作分布,且在数据稀缺的情况下性能受限。
核心思路:论文的核心思路是利用扩散模型来表示多模态动作分布,并设计一个可扩展的Transformer架构来处理多模态输入的异构性。此外,通过引入物理可解释的统一动作空间,实现跨机器人的知识迁移,从而缓解数据稀缺问题。
技术框架:RDT的整体框架包括预训练和微调两个阶段。在预训练阶段,RDT在大规模多机器人数据集上进行训练,学习通用的机器人操作知识。在微调阶段,RDT在一个特定的双臂操作数据集上进行微调,以适应特定的任务需求。RDT的核心模块是一个基于Transformer的扩散模型,该模型接收多模态输入(例如,视觉信息、状态信息、语言指令),并生成相应的动作序列。
关键创新:RDT的关键创新点包括:1) 使用扩散模型来表示多模态动作分布;2) 设计了一个可扩展的Transformer架构来处理多模态输入的异构性;3) 引入了物理可解释的统一动作空间,实现跨机器人的知识迁移。这些创新使得RDT能够有效地处理双臂操作任务,并在数据稀缺的情况下实现良好的泛化性能。
关键设计:RDT的关键设计包括:1) 使用Transformer架构来捕捉机器人数据中的非线性和高频特性;2) 设计了一个可扩展的Transformer架构,可以处理不同类型的多模态输入;3) 使用物理可解释的统一动作空间,该空间可以统一各种机器人的动作表示,同时保留原始动作的物理意义;4) 使用大规模多机器人数据集进行预训练,从而学习通用的机器人操作知识。
🖼️ 关键图片
📊 实验亮点
RDT在真实机器人实验中显著优于现有方法,展现了强大的零样本泛化能力,能够处理未见过的物体和场景。仅需1-5个演示即可学习新技能,并能有效执行复杂的灵巧操作。RDT的成功表明,基于扩散模型的预训练方法在机器人操作领域具有巨大的潜力。
🎯 应用场景
该研究成果可应用于各种需要双臂协调操作的机器人任务,例如装配、拆卸、抓取、放置等。RDT的泛化能力使其能够适应不同的环境和物体,降低了机器人部署的成本和难度。未来,RDT有望成为通用机器人操作平台的基础模型,推动机器人技术在工业、医疗、服务等领域的广泛应用。
📄 摘要(原文)
Bimanual manipulation is essential in robotics, yet developing foundation models is extremely challenging due to the inherent complexity of coordinating two robot arms (leading to multi-modal action distributions) and the scarcity of training data. In this paper, we present the Robotics Diffusion Transformer (RDT), a pioneering diffusion foundation model for bimanual manipulation. RDT builds on diffusion models to effectively represent multi-modality, with innovative designs of a scalable Transformer to deal with the heterogeneity of multi-modal inputs and to capture the nonlinearity and high frequency of robotic data. To address data scarcity, we further introduce a Physically Interpretable Unified Action Space, which can unify the action representations of various robots while preserving the physical meanings of original actions, facilitating learning transferrable physical knowledge. With these designs, we managed to pre-train RDT on the largest collection of multi-robot datasets to date and scaled it up to 1.2B parameters, which is the largest diffusion-based foundation model for robotic manipulation. We finally fine-tuned RDT on a self-created multi-task bimanual dataset with over 6K+ episodes to refine its manipulation capabilities. Experiments on real robots demonstrate that RDT significantly outperforms existing methods. It exhibits zero-shot generalization to unseen objects and scenes, understands and follows language instructions, learns new skills with just 1~5 demonstrations, and effectively handles complex, dexterous tasks. We refer to https://rdt-robotics.github.io/rdt-robotics/ for the code and videos.