Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

📄 arXiv: 2503.19757v2 📥 PDF

作者: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu, Yu Qiao, Jifeng Dai, Yuntao Chen

分类: cs.RO, cs.CV

发布日期: 2025-03-25 (更新: 2025-09-06)

备注: Preprint; https://robodita.github.io; To appear in ICCV2025


💡 一句话要点

Dita:通过扩散Transformer扩展通用视觉-语言-动作策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人策略学习 扩散模型 Transformer 视觉-语言-动作模型 通用机器人 上下文调节 连续动作控制

📋 核心要点

  1. 现有视觉-语言-动作模型依赖紧凑动作头,难以适应异构动作空间,限制了其泛化能力。
  2. Dita利用Transformer架构和多模态扩散过程,通过上下文调节直接去噪连续动作序列,建模动作增量和环境细微差别。
  3. Dita在模拟和真实世界中均表现出色,通过少量样本微调即可适应环境差异和复杂长时程任务。

📝 摘要(中文)

现有的视觉-语言-动作模型在多样化的机器人数据集上训练后,虽然展现出良好的泛化能力,但它们依赖于紧凑的动作头来预测离散或连续动作,这限制了其对异构动作空间的适应性。我们提出了Dita,一个可扩展的框架,它利用Transformer架构,通过统一的多模态扩散过程直接去噪连续动作序列。与先前通过浅层网络融合嵌入来调节去噪的方法不同,Dita采用上下文调节,从而实现去噪动作与历史观测中的原始视觉token之间的精细对齐。这种设计显式地建模了动作增量和环境细微差别。通过扩展扩散动作去噪器以及Transformer的可扩展性,Dita有效地整合了跨不同机器人形态的数据集,这些数据集具有不同的相机视角、观察场景、任务和动作空间。这种协同作用增强了对各种差异的鲁棒性,并促进了长时程任务的成功执行。在广泛的基准测试中进行的评估表明,Dita在模拟中实现了最先进或具有竞争力的性能。值得注意的是,Dita仅使用第三人称相机输入,通过10-shot微调,实现了对环境差异和复杂长时程任务的强大真实世界适应性。该架构为通用机器人策略学习建立了一个通用、轻量级和开源的基线。

🔬 方法详解

问题定义:现有视觉-语言-动作模型在处理异构机器人动作空间时存在局限性。它们通常依赖于紧凑的动作头来预测离散或连续动作,这限制了模型对不同机器人形态和任务的泛化能力。此外,现有方法难以有效地整合来自不同相机视角、观察场景和任务的数据集,导致模型在真实世界中的鲁棒性不足。

核心思路:Dita的核心思路是利用Transformer架构和扩散模型,直接对连续动作序列进行去噪。通过上下文调节,Dita能够实现去噪动作与历史观测中的原始视觉token之间的精细对齐,从而更好地建模动作增量和环境细微差别。这种方法避免了对动作空间进行离散化或使用紧凑的动作头,从而提高了模型对异构动作空间的适应性。

技术框架:Dita的整体架构包括一个视觉编码器、一个Transformer扩散模型和一个动作解码器。视觉编码器将历史观测转换为视觉token序列。Transformer扩散模型以视觉token序列为条件,对动作序列进行去噪。动作解码器将去噪后的动作序列转换为实际的机器人动作。整个流程可以看作是一个条件扩散过程,其中视觉信息作为条件,指导动作序列的生成。

关键创新:Dita的关键创新在于其使用Transformer架构和扩散模型来直接去噪连续动作序列。与现有方法相比,Dita避免了对动作空间进行离散化或使用紧凑的动作头,从而提高了模型对异构动作空间的适应性。此外,Dita采用上下文调节,能够实现去噪动作与历史观测中的原始视觉token之间的精细对齐,从而更好地建模动作增量和环境细微差别。

关键设计:Dita的关键设计包括:1) 使用Transformer架构作为扩散模型的主干网络,以利用其强大的序列建模能力;2) 采用上下文调节,将视觉信息直接注入到扩散过程中,以实现精细的动作控制;3) 使用扩散模型来生成连续动作序列,避免了对动作空间进行离散化;4) 通过缩放扩散动作去噪器,Dita能够有效地整合来自不同机器人形态的数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dita在模拟环境中取得了最先进或具有竞争力的性能。更重要的是,Dita通过仅使用第三人称相机输入的10-shot微调,实现了对环境差异和复杂长时程任务的强大真实世界适应性。这些结果表明Dita具有良好的泛化能力和鲁棒性,为通用机器人策略学习提供了一个有力的基线。

🎯 应用场景

Dita具有广泛的应用前景,可用于开发通用机器人策略,使机器人能够执行各种任务,例如物体操作、导航和组装。该研究成果可应用于工业自动化、家庭服务机器人、医疗机器人等领域,提高机器人的智能化水平和适应性,降低开发和部署成本。

📄 摘要(原文)

While recent vision-language-action models trained on diverse robot datasets exhibit promising generalization capabilities with limited in-domain data, their reliance on compact action heads to predict discretized or continuous actions constrains adaptability to heterogeneous action spaces. We present Dita, a scalable framework that leverages Transformer architectures to directly denoise continuous action sequences through a unified multimodal diffusion process. Departing from prior methods that condition denoising on fused embeddings via shallow networks, Dita employs in-context conditioning -- enabling fine-grained alignment between denoised actions and raw visual tokens from historical observations. This design explicitly models action deltas and environmental nuances. By scaling the diffusion action denoiser alongside the Transformer's scalability, Dita effectively integrates cross-embodiment datasets across diverse camera perspectives, observation scenes, tasks, and action spaces. Such synergy enhances robustness against various variances and facilitates the successful execution of long-horizon tasks. Evaluations across extensive benchmarks demonstrate state-of-the-art or comparative performance in simulation. Notably, Dita achieves robust real-world adaptation to environmental variances and complex long-horizon tasks through 10-shot finetuning, using only third-person camera inputs. The architecture establishes a versatile, lightweight and open-source baseline for generalist robot policy learning. Project Page: https://robodita.github.io.