DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

📄 arXiv: 2603.10448v1 📥 PDF

作者: Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang

分类: cs.RO

发布日期: 2026-03-11

备注: https://dit4dit.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DiT4DiT:通过联合建模视频动态和动作,实现通用机器人控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人控制 视频生成模型 扩散Transformer 视觉-语言-动作模型 强化学习

📋 核心要点

  1. 现有VLA模型依赖静态图像-文本预训练,缺乏对物理动态的有效建模,限制了机器人控制的泛化能力。
  2. DiT4DiT通过级联视频扩散Transformer和动作扩散Transformer,利用视频生成过程中的中间特征作为动作预测的条件。
  3. 实验表明,DiT4DiT在多个机器人控制任务上取得了SOTA结果,显著提高了样本效率和收敛速度。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已成为机器人学习的一种有前景的范例,但它们的表征在很大程度上仍然继承自静态图像-文本预训练,使得物理动态需要从相对有限的动作数据中学习。相比之下,生成视频模型编码了丰富的时空结构和隐式物理,使其成为机器人操作的引人注目的基础。但它们在文献中的潜力尚未得到充分探索。为了弥合这一差距,我们引入了DiT4DiT,这是一个端到端的视频-动作模型,它在一个统一的级联框架中将视频扩散Transformer与动作扩散Transformer耦合。DiT4DiT不是依赖于重建的未来帧,而是从视频生成过程中提取中间去噪特征,并将它们用作动作预测的时间基础条件。我们进一步提出了一种具有解耦时间步长和噪声尺度的双流匹配目标,用于视频预测、隐藏状态提取和动作推断,从而实现两个模块的连贯联合训练。在模拟和真实世界基准测试中,DiT4DiT取得了最先进的结果,在LIBERO上达到了98.6%的平均成功率,在RoboCasa GR1上达到了50.8%的平均成功率,同时使用了明显更少的训练数据。在Unitree G1机器人上,它还提供了卓越的真实世界性能和强大的零样本泛化能力。重要的是,DiT4DiT将样本效率提高了10倍以上,并将收敛速度提高了7倍,这表明视频生成可以作为机器人策略学习的有效缩放代理。我们在https://dit4dit.github.io/发布了代码和模型。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在机器人控制中面临的挑战是,它们主要依赖于静态图像-文本预训练,导致对物理动态的建模不足。这意味着模型需要从相对有限的动作数据中学习复杂的物理交互,限制了其泛化能力和样本效率。现有方法难以有效利用视频数据中蕴含的丰富时空信息和隐式物理知识。

核心思路:DiT4DiT的核心思路是将视频生成模型与动作预测模型相结合,利用视频生成模型学习到的丰富的时空表征和隐式物理知识来指导动作预测。具体来说,它通过一个级联的扩散Transformer框架,将视频扩散Transformer的中间去噪特征作为动作扩散Transformer的条件,从而实现视频动态和动作的联合建模。

技术框架:DiT4DiT的整体框架包含两个主要模块:视频扩散Transformer和动作扩散Transformer。视频扩散Transformer负责从输入视频中提取时空特征,并生成中间去噪特征。动作扩散Transformer则以视频扩散Transformer的中间特征作为条件,预测机器人的动作。这两个模块通过一个双流匹配目标进行联合训练,从而实现视频动态和动作的协同学习。

关键创新:DiT4DiT的关键创新在于它将视频生成模型与动作预测模型紧密结合,利用视频生成模型学习到的丰富时空表征来指导动作预测。与现有方法不同,DiT4DiT不是直接使用重建的未来帧作为动作预测的条件,而是使用视频生成过程中的中间去噪特征,从而更好地捕捉视频的动态信息。此外,双流匹配目标允许视频预测、隐藏状态提取和动作推断的连贯联合训练。

关键设计:DiT4DiT的关键设计包括:1) 使用扩散Transformer作为视频和动作的生成模型;2) 提出双流匹配目标,该目标具有解耦的时间步长和噪声尺度,用于视频预测、隐藏状态提取和动作推断;3) 使用视频扩散Transformer的中间去噪特征作为动作扩散Transformer的条件。这些设计使得DiT4DiT能够有效地学习视频动态和动作之间的关系,并实现高性能的机器人控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiT4DiT在LIBERO和RoboCasa GR1等模拟环境以及Unitree G1真实机器人上取得了显著的性能提升。在LIBERO上,DiT4DiT达到了98.6%的平均成功率,在RoboCasa GR1上达到了50.8%的平均成功率,同时使用了更少的训练数据。此外,DiT4DiT将样本效率提高了10倍以上,并将收敛速度提高了7倍,证明了视频生成作为机器人策略学习的有效性。

🎯 应用场景

DiT4DiT在机器人控制领域具有广泛的应用前景,可用于各种需要与环境交互的机器人任务,例如物体抓取、装配、导航等。该研究的实际价值在于提高了机器人控制的泛化能力和样本效率,降低了训练成本。未来,DiT4DiT有望应用于更复杂的机器人系统,例如人形机器人、自动驾驶汽车等。

📄 摘要(原文)

Vision-Language-Action (VLA) models have emerged as a promising paradigm for robot learning, but their representations are still largely inherited from static image-text pretraining, leaving physical dynamics to be learned from comparatively limited action data. Generative video models, by contrast, encode rich spatiotemporal structure and implicit physics, making them a compelling foundation for robotic manipulation. But their potentials are not fully explored in the literature. To bridge the gap, we introduce DiT4DiT, an end-to-end Video-Action Model that couples a video Diffusion Transformer with an action Diffusion Transformer in a unified cascaded framework. Instead of relying on reconstructed future frames, DiT4DiT extracts intermediate denoising features from the video generation process and uses them as temporally grounded conditions for action prediction. We further propose a dual flow-matching objective with decoupled timesteps and noise scales for video prediction, hidden-state extraction, and action inference, enabling coherent joint training of both modules. Across simulation and real-world benchmarks, DiT4DiT achieves state-of-the-art results, reaching average success rates of 98.6% on LIBERO and 50.8% on RoboCasa GR1 while using substantially less training data. On the Unitree G1 robot, it also delivers superior real-world performance and strong zero-shot generalization. Importantly, DiT4DiT improves sample efficiency by over 10x and speeds up convergence by up to 7x, demonstrating that video generation can serve as an effective scaling proxy for robot policy learning. We release code and models at https://dit4dit.github.io/.