VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

作者: Hao Wang, Xiaobao Wei, Jingyang He, Chengyu Bai, Chun-Kai Fan, Jiajun Cao, Jintao Chen, Ying Li, Shanyu Rong, Ming Lu, Xiaozhu Ju, Jian Tang, Shanghang Zhang

分类: cs.RO

发布日期: 2026-05-11

💡 一句话要点

提出VEGA框架，通过视觉编码器对齐提升视觉-语言-动作（VLA）模型的空间感知能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 具身智能 空间感知 特征对齐 3D高斯溅射 机器人操作 多模态学习

📋 核心要点

现有VLA模型视觉骨干缺乏3D几何监督，导致空间推理能力受限，且现有对齐方法在语义纠缠后的Token上操作，缺乏可解释性。
VEGA通过轻量级投影器，将VLA视觉编码器输出与具备3D感知能力的DINOv2-FiT3D特征进行对齐，在语义融合前注入空间先验。
实验证明VEGA在仿真与真实机器人操作任务中均显著优于现有基线，且推理阶段无需额外计算开销，具备极高的实用价值。

📝 摘要（中文）

精确的空间推理是机器人操作的核心，但当前视觉-语言-动作（VLA）模型的视觉骨干网络多在2D图像上预训练，缺乏显式的3D几何监督，导致空间感知能力不足。现有的隐式空间对齐方法依赖经验性的层搜索，且在已与语言语义纠缠的LLM层级视觉Token上进行对齐，限制了泛化性与可解释性。本文提出VEGA（视觉编码器对齐），通过将VLA视觉编码器的输出直接与DINOv2-FiT3D（经多视角一致性3D高斯溅射监督微调）的特征对齐，在语言语义纠缠前实现空间感知注入。该方法通过轻量级投影器进行训练，推理时可移除，不增加计算开销。实验表明，VEGA在仿真及真实机器人操作任务中均优于现有隐式空间对齐基线，确立了VLA模型空间感知的新SOTA。

🔬 方法详解

问题定义：当前VLA模型主要依赖2D预训练视觉骨干，缺乏对3D空间结构的显式理解。现有对齐方法在LLM层级进行特征对齐，此时视觉特征已与语言语义高度纠缠，导致空间信息的提取与泛化受到语义噪声干扰。

核心思路：VEGA主张在视觉编码器输出端直接进行空间对齐。通过引入具备3D几何先验的教师模型（DINOv2-FiT3D），在视觉特征进入LLM之前，强制其学习空间一致性，从而实现更纯粹、更具可解释性的空间感知注入。

技术框架：VEGA采用教师-学生架构。教师模型为经过3D高斯溅射监督微调的DINOv2-FiT3D，学生模型为VLA的视觉编码器。通过一个轻量级的投影器（Projector）将学生特征映射至教师特征空间，并进行对齐训练。

关键创新：与现有方法在LLM层级对齐不同，VEGA在视觉编码器输出层进行对齐，避免了语言语义对空间特征的干扰，实现了“空间感知先于语义融合”的对齐策略。

关键设计：对齐过程采用余弦相似度损失（Cosine Similarity Loss）作为监督信号，并与VLA原有的动作预测目标联合训练。投影器仅在训练阶段存在，推理时直接丢弃，确保了模型在部署时零额外计算开销。

🖼️ 关键图片

📊 实验亮点

VEGA在多个机器人操作基准测试中表现卓越，显著超越了现有的隐式空间对齐方法。实验结果显示，该方法在保持VLA模型原有推理速度的同时，大幅提升了对空间几何关系的理解精度。在复杂操作任务中，VEGA展现出更强的鲁棒性，确立了其作为VLA模型空间感知增强领域的新基准。

🎯 应用场景

该研究主要应用于具身智能领域，特别是需要高精度空间操作的机器人任务，如物体抓取、精细装配及复杂环境下的导航。通过提升VLA模型的空间感知能力，VEGA能够显著增强机器人对三维环境的理解，提升其在非结构化场景中的操作成功率与泛化能力，为通用机器人控制提供技术支撑。

📄 摘要（原文）

Precise spatial reasoning is fundamental to robotic manipulation, yet the visual backbones of current vision-language-action (VLA) models are predominantly pretrained on 2D image data without explicit 3D geometric supervision, resulting in representations that lack accurate spatial awareness. Existing implicit spatial grounding methods partially address this by aligning VLA features with those of 3D-aware foundation models, but they rely on empirical layer search and perform alignment on LLM-level visual tokens where spatial structure has already been entangled with linguistic semantics, limiting both generalizability and geometric interpretability. We propose VEGA (Visual Encoder Grounding Alignment), a simple yet effective framework that directly aligns the output of the VLA's visual encoder with spatially-aware features from DINOv2-FiT3D, a DINOv2 model fine-tuned with multi-view consistent 3D Gaussian Splatting supervision. By performing alignment at the visual encoder output level, VEGA grounds spatial awareness before any linguistic entanglement occurs, offering a more interpretable and principled alignment target. The alignment is implemented via a lightweight projector trained with a cosine similarity loss alongside the standard action prediction objective, and is discarded at inference time, introducing no additional computational overhead. Extensive experiments on simulation benchmark and real-world manipulation tasks demonstrate that VEGA consistently outperforms existing implicit spatial grounding baselines, establishing a new state-of-the-art among implicit spatial grounding methods for VLA models.

VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理