$Δ$VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

📄 arXiv: 2603.08361v1 📥 PDF

作者: Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu

分类: cs.CV

发布日期: 2026-03-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出$Δ$VLA,通过世界知识变化先验引导的VLA模型,提升机器人操作性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 世界知识表示 变化建模 先验引导 VQ-VAE 条件注意力

📋 核心要点

  1. 现有VLA模型侧重预测未来状态,缺乏对变化过程的推理,限制了机器人动作决策。
  2. $Δ$VLA建模相对于当前世界知识先验的变化,而非直接预测未来状态,从而关注变化过程。
  3. 实验表明,$Δ$VLA在模拟和真实机器人任务中均取得了SOTA性能,并提升了效率。

📝 摘要(中文)

本文提出了一种名为$Δ$VLA的先验引导的视觉-语言-动作(VLA)模型,旨在改进机器人操作任务。现有VLA模型侧重于预测未来视觉状态或世界知识,而忽略了对变化过程的推理,这对于决定如何行动至关重要。$Δ$VLA通过建模相对于显式当前世界知识先验的世界知识变化来生成动作,而非回归绝对的未来世界状态。具体来说,1)提出了先验引导的世界知识提取器(PWKE),从视觉输入中提取可操作区域、空间关系和语义线索;2)引入了潜在世界变化量化(LWVQ),通过VQ-VAE目标学习离散潜在空间来编码世界知识变化;3)设计了条件变化注意力(CV-Atten),以促进解耦学习并保持知识表示的独立性。在模拟基准和真实机器人任务上的实验表明,$Δ$VLA实现了最先进的性能,同时提高了效率。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中取得了显著进展,但它们主要关注预测未来的视觉状态或世界知识,而忽略了对状态变化过程的推理。这种对结果的过度关注使得模型难以理解“如何”采取行动,限制了其在复杂操作任务中的应用。现有方法缺乏对当前世界状态的明确建模,以及对动作如何影响世界状态的细粒度理解,导致动作生成策略不够有效。

核心思路:$Δ$VLA的核心思路是通过建模世界知识的“变化”而非直接预测未来的绝对状态来指导动作生成。具体来说,模型首先提取当前的世界知识先验,然后学习动作如何改变这些知识。这种方法更侧重于理解动作的“过程”,而非仅仅预测“结果”。通过关注变化,模型可以更好地理解动作与环境之间的因果关系,从而生成更有效的动作。

技术框架:$Δ$VLA的整体框架包含三个主要模块:1) 先验引导的世界知识提取器(PWKE):从视觉输入中提取可操作区域、空间关系和语义线索,构建当前世界知识的先验表示。2) 潜在世界变化量化(LWVQ):学习一个离散的潜在空间,用于编码世界知识的变化。通过VQ-VAE目标,将预测从完整模态转移到紧凑的潜在空间。3) 条件变化注意力(CV-Atten):用于在变化建模过程中减轻干扰,促进解耦学习,并保持知识表示的独立性。这三个模块协同工作,使得模型能够有效地理解和预测动作对环境的影响,从而生成更有效的动作。

关键创新:$Δ$VLA的关键创新在于其对世界知识“变化”的建模。与现有方法直接预测未来状态不同,$Δ$VLA关注动作如何改变当前的世界知识。这种方法更符合人类的认知方式,即通过理解动作的影响来做出决策。此外,PWKE、LWVQ和CV-Atten三个模块的设计也为实现这一目标提供了有效的技术手段。

关键设计:PWKE使用辅助头和先验伪标签来引导世界知识的提取,减少冗余信息。LWVQ使用VQ-VAE目标函数学习离散潜在空间,将连续的变化信息量化为离散的编码,降低了建模的复杂度。CV-Atten通过条件注意力机制,在建模变化时减少不同知识表示之间的干扰,促进解耦学习。具体的损失函数包括VQ-VAE的重构损失和量化损失,以及用于训练辅助头的交叉熵损失等。网络结构方面,PWKE可能包含卷积神经网络和Transformer等,LWVQ则基于VQ-VAE的结构,CV-Atten则是在注意力机制的基础上进行改进。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,$Δ$VLA在模拟和真实机器人任务中均取得了最先进的性能。具体数据未在摘要中给出,但强调了其超越现有VLA模型的性能,并提高了效率。代码和真实世界执行视频已开源。

🎯 应用场景

$Δ$VLA模型在机器人操作领域具有广泛的应用前景,例如家庭服务机器人、工业自动化、医疗辅助机器人等。通过理解动作对环境的影响,机器人可以更好地完成各种操作任务,例如物体抓取、放置、组装等。该研究的成果有助于提高机器人的自主性和智能化水平,使其能够更好地适应复杂多变的环境。

📄 摘要(原文)

Recent vision-language-action (VLA) models have significantly advanced robotic manipulation by unifying perception, reasoning, and control. To achieve such integration, recent studies adopt a predictive paradigm that models future visual states or world knowledge to guide action generation. However, these models emphasize forecasting outcomes rather than reasoning about the underlying process of change, which is essential for determining how to act. To address this, we propose $Δ$VLA, a prior-guided framework that models world-knowledge variations relative to an explicit current-world knowledge prior for action generation, rather than regressing absolute future world states. Specifically, 1) to construct the current world knowledge prior, we propose the Prior-Guided WorldKnowledge Extractor (PWKE). It extracts manipulable regions, spatial relations, and semantic cues from the visual input, guided by auxiliary heads and prior pseudo labels, thus reducing redundancy. 2) Building upon this, to represent how world knowledge evolves under actions, we introduce the Latent World Variation Quantization (LWVQ). It learns a discrete latent space via a VQ-VAE objective to encode world knowledge variations, shifting prediction from full modalities to compact latent. 3)Moreover, to mitigate interference during variation modeling, we design the Conditional Variation Attention (CV-Atten), whichpromotes disentangled learning and preserves the independence of knowledge representations. Extensive experiments on both simulated benchmarks and real-world robotic tasks demonstrate $Δ$VLA achieves state-of-the-art performance while improving efficiency. Code and real-world execution videos are available at https://github.com/JiuTian-VL/DeltaVLA.