StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation
作者: Jiasong Xiao, Yutao She, Kai Li, Yuyang Sha, Ziang Cheng, Ziang Tong
分类: cs.RO, cs.CV
发布日期: 2026-02-27
备注: Preprint
💡 一句话要点
StemVLA:融合未来3D几何知识与4D历史表征的开放世界VLA模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 机器人操作 3D空间几何 4D时空表征 长期决策 CALVIN基准 时空建模
📋 核心要点
- 现有VLA模型依赖2D视觉输入到动作的直接映射,忽略了3D空间结构和时间动态建模。
- StemVLA通过预测未来3D几何结构和整合历史4D时空信息,增强了模型对环境的理解。
- 实验表明,StemVLA在长期任务中显著提升性能,并在CALVIN ABC-D基准上达到SOTA。
📝 摘要(中文)
视觉-语言-动作(VLA)模型整合视觉观察和语言指令来预测机器人动作,在操作任务中展现出良好的泛化能力。然而,现有方法主要依赖于从2D视觉输入到动作序列的直接映射,缺乏对底层3D空间结构或时间世界动态的显式建模,这限制了空间推理和动态环境中长期决策能力。为解决此问题,我们提出了StemVLA,一种将面向未来的3D空间知识和历史4D时空表征显式结合到动作预测中的新框架。StemVLA预测结构化的3D未来空间几何世界知识,使模型能够预测即将到来的场景几何和对象配置,而非仅依赖于观察到的图像。此外,我们使用预训练的视频-几何Transformer骨干网络提取隐式的3D世界表征,并使用时间注意力模块VideoFormer在时间上聚合这些表征,形成统一的4D历史时空表征。通过联合建模2D观察、预测的3D未来结构和聚合的4D时间动态,StemVLA能够实现更全面的机器人操作世界理解。仿真实验表明,StemVLA显著提高了长期任务的成功率,并在CALVIN ABC-D基准测试中实现了最先进的性能。
🔬 方法详解
问题定义:现有VLA模型在机器人操作任务中,主要依赖于2D视觉输入到动作的直接映射,缺乏对场景的3D空间几何结构以及时间动态的显式建模。这种简化导致模型在复杂动态环境中进行空间推理和长期决策时能力受限,难以泛化到更复杂的任务。
核心思路:StemVLA的核心思路是通过显式地建模未来3D空间几何知识和历史4D时空表征,来增强VLA模型对环境的理解和预测能力。通过预测未来场景的3D结构,模型可以预见即将发生的变化,从而做出更合理的决策。同时,利用历史信息构建4D时空表征,可以捕捉到环境中的运动动态和时间一致性。
技术框架:StemVLA的整体框架包括以下几个主要模块:1) 2D视觉输入处理模块:用于处理输入的图像帧。2) 3D未来空间几何预测模块:预测未来场景的3D几何结构。3) 4D历史时空表征模块:利用预训练的视频-几何Transformer骨干网络提取历史图像帧的3D世界表征,并通过VideoFormer进行时间聚合,形成4D时空表征。4) 动作预测模块:结合2D视觉输入、预测的3D未来结构和4D历史时空表征,预测机器人动作。
关键创新:StemVLA的关键创新在于同时引入了未来3D空间几何知识和历史4D时空表征。与现有方法相比,StemVLA不再仅仅依赖于当前的2D视觉输入,而是通过预测未来和回顾历史,更全面地理解环境。这种方法使得模型能够更好地进行空间推理和长期决策。
关键设计:在3D未来空间几何预测模块中,可能使用了基于生成对抗网络(GAN)或变分自编码器(VAE)的方法来预测未来的3D场景。在4D历史时空表征模块中,VideoFormer可能采用了多头注意力机制,以更好地捕捉不同时间步之间的依赖关系。损失函数可能包括重构损失、预测损失和动作预测损失,以共同优化各个模块。
📊 实验亮点
StemVLA在CALVIN ABC-D基准测试中取得了显著的性能提升,达到了state-of-the-art水平。实验结果表明,StemVLA能够显著提高长期任务的成功率,这验证了该模型在复杂动态环境中进行长期决策的有效性。具体的性能数据(XXX)表明,StemVLA相较于现有方法具有明显的优势。
🎯 应用场景
StemVLA模型具有广泛的应用前景,包括但不限于:智能家居、自动驾驶、工业机器人、医疗机器人等领域。通过增强机器人对环境的理解和预测能力,可以实现更安全、更高效、更智能的自动化操作,例如在复杂环境中进行物体抓取、导航和协作等任务。该研究有助于推动机器人技术的发展,并为实现更智能的机器人系统奠定基础。
📄 摘要(原文)
Vision-language-action (VLA) models integrate visual observations and language instructions to predict robot actions, demonstrating promising generalization in manipulation tasks. However, most existing approaches primarily rely on direct mappings from 2D visual inputs to action sequences, without explicitly modeling the underlying 3D spatial structure or temporal world dynamics. Such representations may limit spatial reasoning and long-horizon decision-making in dynamic environments. To address this limitation, we propose StemVLA, a novel framework that explicitly incorporates both future-oriented 3D spatial knowledge and historical 4D spatiotemporal representations into action prediction. First, instead of relying solely on observed images, StemVLA forecasts structured 3D future spatial-geometric world knowledge, enabling the model to anticipate upcoming scene geometry and object configurations. Second, to capture temporal consistency and motion dynamics, we feed historical image frames into a pretrained video-geometry transformer backbone to extract implicit 3D world representations, and further aggregate them across time using a temporal attention module, termed VideoFormer [20], forming a unified 4D historical spatiotemporal representation. By jointly modeling 2D observations, predicted 3D future structure, and aggregated 4D temporal dynamics, StemVLA enables more comprehensive world understanding for robot manipulation. Extensive experiments in simulation demonstrate that StemVLA significantly improves long-horizon task success and achieves state-of-the-art performance on the CALVIN ABC-D benchmark [46], achieving an average sequence length of XXX.