DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter
作者: Xukun Li, Yu Sun, Lei Zhang, Bosheng Huang, Yibo Peng, Yuan Meng, Haojun Jiang, Shaoxuan Xie, Guacai Yao, Alois Knoll, Zhenshan Bing, Xinlong Wang, Zhenguo Sun
分类: cs.RO, cs.AI
发布日期: 2026-02-05
备注: 17 pages, 8 figures
💡 一句话要点
提出DECO:解耦多模态扩散Transformer,用于灵巧双臂操作,并集成触觉适配器
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 灵巧操作 多模态融合 扩散Transformer 触觉感知 机器人学习
📋 核心要点
- 现有灵巧操作策略难以有效融合多模态信息,特别是触觉信息,限制了其在复杂任务中的应用。
- DECO通过解耦多模态条件输入,利用自适应层归一化和交叉注意力机制,实现了图像、动作、本体感受和触觉信息的有效融合。
- DECO在灵巧操作任务上表现出色,并伴随发布了包含触觉信息的DECO-50数据集,为相关研究提供了数据支持。
📝 摘要(中文)
本文提出了一种名为DECO的策略,用于灵巧双臂操作。DECO基于扩散Transformer(DiT),采用解耦的多模态条件输入方式。图像和动作token通过联合自注意力机制进行交互,而本体感受状态和可选条件通过自适应层归一化注入。触觉信号通过交叉注意力注入,并使用轻量级的基于LoRA的适配器来高效地微调预训练策略。此外,本文还发布了一个名为DECO-50的灵巧双臂操作数据集,该数据集包含触觉感知,由4个场景和28个子任务组成,涵盖超过50小时的数据,约500万帧和8000条成功轨迹。
🔬 方法详解
问题定义:现有灵巧操作策略在处理多模态输入时,特别是融合触觉信息方面存在困难。直接将所有模态的信息简单拼接或融合,可能导致信息冗余和性能下降。此外,针对特定任务微调大型模型的计算成本也很高。
核心思路:DECO的核心思路是将多模态条件输入解耦,分别处理不同模态的信息,然后通过特定的机制进行融合。这种解耦的方式可以更好地利用不同模态的特性,避免信息冗余,并提高模型的泛化能力。同时,采用轻量级的LoRA适配器来降低微调成本。
技术框架:DECO基于扩散Transformer(DiT)架构。整体流程如下:首先,图像和动作token通过联合自注意力机制进行交互。然后,本体感受状态和可选条件通过自适应层归一化注入到Transformer的每一层。触觉信号通过交叉注意力机制与图像和动作特征进行融合。最后,使用基于LoRA的适配器对预训练的策略进行微调。
关键创新:DECO的关键创新在于解耦的多模态条件输入方式和轻量级的LoRA适配器。解耦的多模态条件输入允许模型独立处理不同模态的信息,并根据其重要性进行加权。LoRA适配器则可以在不修改原始模型参数的情况下,高效地对模型进行微调,降低了计算成本。
关键设计:自适应层归一化(Adaptive Layer Normalization)用于注入本体感受状态和可选条件,其增益和偏差参数由这些条件信息预测得到。交叉注意力机制用于融合触觉信号,其中触觉特征作为query,图像和动作特征作为key和value。LoRA适配器通过在Transformer的注意力层中添加低秩矩阵来实现参数高效的微调。
🖼️ 关键图片
📊 实验亮点
DECO在灵巧双臂操作任务上取得了显著的性能提升。此外,DECO-50数据集的发布为该领域的研究提供了宝贵的数据资源。实验结果表明,DECO能够有效地融合多模态信息,并在多个任务上超越了现有的基线方法。具体性能数据和对比结果在论文中有详细展示。
🎯 应用场景
DECO具有广泛的应用前景,可用于机器人灵巧操作、自动化装配、医疗手术等领域。通过融合视觉、触觉和本体感受等多模态信息,DECO能够提高机器人在复杂环境中的操作能力和鲁棒性,实现更安全、高效的人机协作。
📄 摘要(原文)
Overview of the Proposed DECO Framework.} DECO is a DiT-based policy that decouples multimodal conditioning. Image and action tokens interact via joint self attention, while proprioceptive states and optional conditions are injected through adaptive layer normalization. Tactile signals are injected via cross attention, while a lightweight LoRA-based adapter is used to efficiently fine-tune the pretrained policy. DECO is also accompanied by DECO-50, a bimanual dexterous manipulation dataset with tactile sensing, consisting of 4 scenarios and 28 sub-tasks, covering more than 50 hours of data, approximately 5 million frames, and 8,000 successful trajectories.