3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models

📄 arXiv: 2603.24393v1 📥 PDF

作者: Bin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Haishan Liu, Changti Wu, Hang Yuan, Bailing Wang, Cong Huang, Kai Chen

分类: cs.RO

发布日期: 2026-03-25

备注: 13 pages


💡 一句话要点

提出3D-Mix模块,提升VLA模型在机器人控制任务中的3D空间感知能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人控制 3D感知 多模态融合 门控机制

📋 核心要点

  1. MLLM在机器人控制中应用受限,主要原因是其在2D数据上训练导致3D空间感知能力不足。
  2. 论文提出3D-Mix模块,通过语义条件门控融合2D语义和3D几何特征,提升VLA模型的空间智能。
  3. 实验表明,3D-Mix在多个MLLM系列上实现了持续的性能提升,在OOD SIMPLER基准上平均提升+7.0%。

📝 摘要(中文)

视觉-语言-动作(VLA)模型利用多模态大型语言模型(MLLM)进行机器人控制,但最近的研究表明,由于主要在2D数据上训练,MLLM表现出有限的空间智能,导致操作任务的3D感知不足。虽然最近的方法整合了诸如VGGT等专门的3D视觉模型来增强空间理解,但它们采用了不同的集成机制,缺乏系统的研究,使得最佳融合策略尚不明确。我们进行了一项全面的初步研究,比较了标准化基准上的九种VGGT集成方案,发现语义条件门控融合,即基于任务上下文自适应地平衡2D语义和3D几何特征,在我们初步研究中所有九种评估的融合方案中取得了最强的性能。我们提出了3D-Mix,一个即插即用的模块,可以集成到不同的VLA架构(GR00T-style和$π$-style)中,而无需修改现有的MLLM或动作专家组件。在SIMPLER和LIBERO上对六个MLLM系列(九个模型变体,2B--8B参数)进行的实验表明,3D-Mix提供了持续的性能提升,在所有九个GR00T-style变体的超出分布(OOD) SIMPLER基准上平均提升+7.0%,为增强VLA系统中的空间智能建立了一种原则性的方法。

🔬 方法详解

问题定义:VLA模型在机器人控制任务中,由于MLLM对3D空间理解不足,导致操作性能受限。现有方法虽然尝试集成3D视觉模型,但缺乏对不同融合策略的系统研究,最佳融合方案未知。

核心思路:论文的核心思路是提出一种即插即用的3D-Mix模块,通过语义条件门控融合2D语义特征和3D几何特征,自适应地平衡两种特征的重要性,从而提升VLA模型的3D空间感知能力。这种设计避免了直接修改MLLM或动作专家组件,具有良好的通用性。

技术框架:3D-Mix模块可以集成到不同的VLA架构中,例如GR00T-style和$π$-style。其主要流程包括:首先,使用VGGT等3D视觉模型提取3D几何特征;然后,利用语义信息(例如,来自MLLM的文本嵌入)作为条件,通过门控机制自适应地融合2D语义特征和3D几何特征;最后,将融合后的特征输入到MLLM或动作专家中进行决策。

关键创新:最重要的技术创新点在于语义条件门控融合机制。与简单的特征拼接或加权平均相比,该机制能够根据任务上下文动态地调整2D和3D特征的权重,从而更有效地利用3D信息。这种自适应融合方式是提升VLA模型空间智能的关键。

关键设计:3D-Mix模块的关键设计包括:1) 使用VGGT提取3D特征;2) 使用MLLM的文本嵌入作为语义条件;3) 设计门控网络,根据语义条件计算2D和3D特征的权重;4) 使用加权和的方式融合2D和3D特征。具体的损失函数和网络结构细节未在摘要中明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,3D-Mix模块在SIMPLER和LIBERO数据集上,对六个MLLM系列(九个模型变体,2B--8B参数)都实现了持续的性能提升。尤其是在超出分布(OOD)的SIMPLER基准上,所有九个GR00T-style变体的平均提升幅度达到了+7.0%。这证明了3D-Mix模块的有效性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于机器人操作、自动驾驶、增强现实等领域。通过提升VLA模型对3D环境的理解能力,可以使机器人更安全、更高效地完成复杂任务,例如物体抓取、路径规划、人机协作等。未来,该技术有望推动机器人智能化水平的进一步提升。

📄 摘要(原文)

Vision-Language-Action (VLA) models leverage Multimodal Large Language Models (MLLMs) for robotic control, but recent studies reveal that MLLMs exhibit limited spatial intelligence due to training predominantly on 2D data, resulting in inadequate 3D perception for manipulation tasks. While recent approaches incorporate specialized 3D vision models such as VGGT to enhance spatial understanding, they employ diverse integration mechanisms without systematic investigation, leaving the optimal fusion strategy unclear. We conduct a comprehensive pilot study comparing nine VGGT integration schemes on standardized benchmarks and find that semantic-conditioned gated fusion, which adaptively balances 2D semantic and 3D geometric features based on task context, achieved the strongest performance among all nine evaluated fusion schemes in our pilot study. We present 3D-Mix, a plug-and-play module that integrates into diverse VLA architectures (GR00T-style and $π$-style) without modifying existing MLLM or action expert components. Experiments across six MLLM series (nine model variants, 2B--8B parameters) on SIMPLER and LIBERO show that 3D-Mix delivers consistent performance gains, averaging +7.0% on the out-of-domain (OOD) SIMPLER benchmark across all nine GR00T-style variants, establishing a principled approach for enhancing spatial intelligence in VLA systems.