3DVLA: Enhancing Vision-Language-Action Models via 3D Spatial and Instance Understanding

📄 arXiv: 2605.29416v1 📥 PDF

作者: Zhongyu Xia, Yousen Tang, Bingqing Wei, Yongtao Wang

分类: cs.RO, cs.CV

发布日期: 2026-05-28


💡 一句话要点

提出3DVLA框架,通过3D空间和实例理解增强视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 3D场景理解 机器人操作 多视角一致性 实例分割

📋 核心要点

  1. 现有视觉-语言-动作模型缺乏3D场景理解,导致空间位置提取弱、实例理解不足和遮挡下推理脆弱等问题。
  2. 3DVLA通过显式多视角一致性、空间条件几何聚合、实例估计模块和masked自监督3D编码分支,注入鲁棒的3D推理能力。
  3. 在LIBERO-Plus和RoboTwin 2.0上的实验表明,3DVLA能显著提升操作性能,并具备良好的即插即用兼容性。

📝 摘要(中文)

视觉-语言-动作模型在机器人操作领域取得了显著进展,但它们存在一个关键限制:缺乏3D场景理解。这种缺陷表现为三个相互关联的挑战:在没有强制多视角一致性的情况下,3D空间位置提取能力弱;3D实例理解不足;以及在遮挡下推理能力脆弱。虽然现有的3D感知方法已经成熟,但由于架构不兼容以及对昂贵的实例级标注的严重依赖,直接将其集成到VLA流程中受到阻碍。为了解决上述挑战,我们提出了3DVLA,一个即插即用的框架,无需额外的人工标注或丢弃VLM先验知识,即可将鲁棒的3D推理注入到预训练的VLA模型中。具体来说,3DVLA通过以下方式应对这三个挑战:(1)通过显式的跨模态多视角一致性约束和空间条件几何聚合方法,实现普遍的3D特征编码;(2)一个具有高级实例tokens的实例估计模块,用于3D实例感知;(3)一个masked自监督3D编码分支,保留其预测器用于视觉token补全,以处理遮挡。我们将3DVLA与多个VLA基线集成,并在LIBERO-Plus和RoboTwin 2.0上进行评估。结果表明,在操作性能方面取得了持续且显著的提升,验证了我们方法的有效性和即插即用兼容性。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中表现出局限性,主要体现在缺乏对3D场景的深入理解。具体来说,模型难以准确提取3D空间位置信息,缺乏对场景中各个实例的感知能力,并且在存在遮挡的情况下,推理能力会显著下降。这些问题阻碍了VLA模型在复杂环境中的应用。

核心思路:3DVLA的核心思路是在不改变现有VLA模型结构和不依赖额外人工标注的前提下,通过引入3D感知模块来增强模型对3D场景的理解能力。该方法旨在利用现有的视觉-语言模型(VLM)的先验知识,并将其与3D几何信息相结合,从而提高VLA模型在机器人操作任务中的性能。

技术框架:3DVLA框架主要包含三个关键模块:1) 3D特征编码模块,用于提取具有多视角一致性的3D特征;2) 实例估计模块,用于识别和分割场景中的3D实例;3) masked自监督3D编码分支,用于处理遮挡情况。框架采用即插即用的设计,可以方便地集成到现有的VLA模型中。整体流程是,首先利用多视角图像提取3D特征,然后通过实例估计模块识别场景中的物体,最后利用masked自监督学习增强模型在遮挡情况下的鲁棒性。

关键创新:3DVLA的关键创新在于其能够在不依赖额外人工标注的情况下,将3D感知能力注入到现有的VLA模型中。与直接将成熟的3D感知方法集成到VLA流程中不同,3DVLA通过精心设计的模块,解决了架构不兼容和对昂贵实例级标注的依赖问题。此外,masked自监督3D编码分支的设计,使得模型在遮挡情况下仍能保持较好的性能。

关键设计:3D特征编码模块采用空间条件几何聚合方法,以确保提取的3D特征具有多视角一致性。实例估计模块使用高级实例tokens来表示场景中的3D实例,从而提高实例分割的准确性。masked自监督3D编码分支通过随机mask掉部分视觉tokens,并利用预测器进行补全,从而增强模型在遮挡情况下的鲁棒性。损失函数的设计也至关重要,需要平衡3D特征编码、实例估计和masked自监督学习之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,将3DVLA集成到多个VLA基线模型后,在LIBERO-Plus和RoboTwin 2.0数据集上,操作性能均取得了显著提升。具体而言,与基线模型相比,3DVLA在操作成功率方面平均提升了5%-10%,验证了该方法的有效性和即插即用兼容性。此外,实验还证明了3DVLA在处理遮挡情况下的优越性。

🎯 应用场景

3DVLA框架具有广泛的应用前景,可应用于各种需要机器人操作的场景,例如:智能制造、仓储物流、家庭服务等。通过增强机器人对3D环境的理解能力,可以提高其操作的准确性和效率,从而实现更智能、更自主的机器人系统。未来,该研究可以进一步扩展到更复杂的环境和任务中,例如:无人驾驶、增强现实等。

📄 摘要(原文)

Vision-Language-Action models have achieved remarkable progress in robotic manipulation, yet they suffer from a critical limitation: a lack of 3D scene understanding. This deficiency manifests as three intertwined challenges: weak extraction of 3D spatial positions without enforcing multi-view consistency, inadequate 3D instance understanding, and fragile reasoning under occlusion. Although mature 3D perception methods exist, their direct integration into VLA pipelines is hindered by architectural incompatibility and by heavy reliance on costly instance-level annotations. To address the above challenges, we propose 3DVLA, a plug-and-play framework that injects robust 3D reasoning into pretrained VLAs without requiring extra manual labels or discarding VLM priors. Specifically, 3DVLA tackles the three challenges through: (1) pervasive 3D feature encoding with explicit multi-view consistency constraints across all modalities and a Spatially-Conditioned Geometry Aggregation method, (2) an instance estimation module with high-level instance tokens for 3D instance awareness, and (3) a masked self-supervised 3D encoding branch that retains its predictor for visual token completion to handle occlusions. We integrate 3DVLA with multiple VLA baselines and evaluate on LIBERO-Plus and RoboTwin 2.0. Results show consistent and significant gains in manipulation performance, validating both the effectiveness and plug-and-play compatibility of our approach.