DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA
作者: Yi Chen, Yuying Ge, Hui Zhou, Mingyu Ding, Yixiao Ge, Xihui Liu
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2026-03-31
备注: Project page: https://xpeng-robotics.github.io/dial
💡 一句话要点
DIAL通过潜在世界建模解耦意图与动作,实现端到端VLA控制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 潜在世界建模 意图解耦 机器人操作 零样本泛化
📋 核心要点
- 现有VLA模型过度依赖VLM作为编码器,忽略了其高层决策能力,导致训练不稳定和语义信息损失。
- DIAL通过潜在意图瓶颈连接高层决策和低层运动执行,利用VLM进行潜在世界建模,显式编码意图。
- DIAL在RoboCasa基准上取得SOTA,仅需少量演示数据,并展现出对未见物体的零样本泛化能力。
📝 摘要(中文)
视觉-语言-动作(VLA)模型的发展受益于预训练视觉-语言模型(VLM)。然而,现有端到端VLA模型主要将VLM作为多模态编码器,直接将视觉-语言特征映射到低层动作,未能充分利用VLM在高层决策方面的潜力,并引入训练不稳定性,降低了其丰富的语义表示能力。为解决这些问题,我们提出了DIAL,一个通过可微潜在意图瓶颈连接高层决策和低层运动执行的框架。具体来说,基于VLM的System-2通过在VLM的特征空间内合成潜在视觉预测来进行潜在世界建模;这种预测显式地编码了意图,并作为结构瓶颈。然后,一个轻量级的System-1策略通过潜在逆动力学将预测的意图与当前观察解码为精确的机器人动作。为了确保优化稳定性,我们采用两阶段训练范式:一个解耦的预热阶段,其中System-2学习预测潜在的未来,而System-1学习在统一特征空间内,在真实未来指导下的运动控制;然后是无缝的端到端联合优化。这使得动作感知的梯度能够以受控的方式细化VLM骨干网络,从而保留预训练知识。在RoboCasa GR1 Tabletop基准上的大量实验表明,DIAL建立了一个新的state-of-the-art,以比以前的方法少10倍的演示实现了卓越的性能。此外,通过利用异构的人类演示,DIAL学习了物理上合理的操纵先验,并在人形机器人的真实部署中对未见过的物体和新的配置表现出强大的零样本泛化能力。
🔬 方法详解
问题定义:现有端到端视觉-语言-动作(VLA)模型通常直接将预训练的视觉-语言模型(VLM)作为多模态编码器,将视觉和语言信息编码后直接映射到低层动作控制。这种方法忽略了VLM在高层决策方面的潜力,并且容易导致训练不稳定,影响VLM的语义表示能力。现有方法难以有效利用VLM的预训练知识,并且需要大量的训练数据。
核心思路:DIAL的核心思路是将VLA任务分解为高层意图规划和低层动作执行两个阶段,并通过一个可微的潜在意图瓶颈连接这两个阶段。利用VLM进行潜在世界建模,预测未来状态,从而显式地编码意图。然后,使用一个轻量级的策略网络将意图和当前状态解码为具体的机器人动作。这种解耦的设计可以更好地利用VLM的预训练知识,并提高训练的稳定性和效率。
技术框架:DIAL框架包含两个主要模块:System-2和System-1。System-2是一个基于VLM的潜在世界模型,负责根据当前状态和指令预测未来的潜在状态。System-1是一个轻量级的策略网络,负责根据当前状态和System-2预测的潜在状态生成具体的机器人动作。整个框架采用两阶段训练策略:首先,解耦训练System-2和System-1,System-2学习预测潜在未来,System-1学习在真实未来指导下的运动控制;然后,进行端到端联合优化,使动作感知的梯度能够细化VLM骨干网络。
关键创新:DIAL的关键创新在于引入了潜在意图瓶颈,将高层决策和低层动作执行解耦。通过VLM进行潜在世界建模,显式地编码意图,并将其作为连接两个阶段的桥梁。这种设计可以更好地利用VLM的预训练知识,提高训练的稳定性和效率,并实现更好的泛化能力。此外,两阶段训练策略也保证了训练的稳定性。
关键设计:DIAL使用了对比学习损失来训练System-2,使其能够预测与真实未来状态相似的潜在状态。System-1使用逆动力学模型来学习从潜在状态到动作的映射。两阶段训练策略包括一个解耦的预热阶段和一个端到端联合优化阶段。在预热阶段,System-2和System-1分别进行训练,System-2使用真实未来状态作为监督信号,System-1使用真实动作作为监督信号。在端到端联合优化阶段,System-2和System-1一起进行训练,System-1的梯度可以反向传播到System-2,从而细化VLM骨干网络。
🖼️ 关键图片
📊 实验亮点
DIAL在RoboCasa GR1 Tabletop基准测试中取得了state-of-the-art的性能,并且仅使用了以前方法十分之一的演示数据。此外,DIAL还展现了强大的零样本泛化能力,能够在真实机器人上成功操作未见过的物体和新的配置。这些实验结果表明,DIAL是一种高效且通用的VLA框架。
🎯 应用场景
DIAL框架可应用于各种机器人操作任务,例如家庭服务机器人、工业机器人等。通过利用预训练的VLM和少量的人工演示数据,DIAL可以快速学习新的操作技能,并具备良好的泛化能力。该研究有助于降低机器人操作任务的开发成本,并提高机器人的智能化水平,使其能够更好地适应复杂多变的环境。
📄 摘要(原文)
The development of Vision-Language-Action (VLA) models has been significantly accelerated by pre-trained Vision-Language Models (VLMs). However, most existing end-to-end VLAs treat the VLM primarily as a multimodal encoder, directly mapping vision-language features to low-level actions. This paradigm underutilizes the VLM's potential in high-level decision making and introduces training instability, frequently degrading its rich semantic representations. To address these limitations, we introduce DIAL, a framework bridging high-level decision making and low-level motor execution through a differentiable latent intent bottleneck. Specifically, a VLM-based System-2 performs latent world modeling by synthesizing latent visual foresight within the VLM's native feature space; this foresight explicitly encodes intent and serves as the structural bottleneck. A lightweight System-1 policy then decodes this predicted intent together with the current observation into precise robot actions via latent inverse dynamics. To ensure optimization stability, we employ a two-stage training paradigm: a decoupled warmup phase where System-2 learns to predict latent futures while System-1 learns motor control under ground-truth future guidance within a unified feature space, followed by seamless end-to-end joint optimization. This enables action-aware gradients to refine the VLM backbone in a controlled manner, preserving pre-trained knowledge. Extensive experiments on the RoboCasa GR1 Tabletop benchmark show that DIAL establishes a new state-of-the-art, achieving superior performance with 10x fewer demonstrations than prior methods. Furthermore, by leveraging heterogeneous human demonstrations, DIAL learns physically grounded manipulation priors and exhibits robust zero-shot generalization to unseen objects and novel configurations during real-world deployment on a humanoid robot.