SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation

📄 arXiv: 2603.22760v1 📥 PDF

作者: Ruisen Tu, Arth Shukla, Sohyun Yoo, Xuanlin Li, Junxi Li, Jianwen Xie, Hao Su, Zhuowen Tu

分类: cs.RO

发布日期: 2026-03-24


💡 一句话要点

提出SG-VLA模型,通过空间信息增强的视觉-语言-动作模型提升移动操作机器人性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 移动操作 空间信息增强 多模态学习 辅助任务学习

📋 核心要点

  1. 现有VLA模型在复杂家庭环境中移动操作任务表现不佳,难以处理高维连续动作空间和理解场景空间信息。
  2. 提出SG-VLA模型,通过多视角RGB-D信息融合、辅助任务联合训练等方式,增强模型对空间信息的理解和表征能力。
  3. 实验表明,SG-VLA在家庭重排任务中,拾取、放置等操作性能显著优于直接模仿学习,验证了空间信息增强的有效性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人控制领域展现出潜力,但在复杂的家庭环境中性能仍不理想。移动操作需要对全局场景布局、精细几何结构和高维连续动作进行推理,这使得标准的模仿学习方法不足以胜任。本文提出了一种学习空间信息增强的VLA模型框架,通过辅助任务的联合训练和多模态输入增强来加强感知和表征能力。该方法解决了控制包含底座运动、机械臂关节运动和夹爪驱动的13维动作空间的挑战。为了丰富空间理解,模型融合了多视角RGB观测、深度信息和短期时间历史,提供了全局场景结构和局部操作环境的视角。为了提高表征质量,我们联合训练辅助解码器,从共享的视觉-语言特征中重建可解释的中间信号,包括全局机器人位置、关节配置、抓取可供性、目标物体相对姿态和分割掩码。这些目标提供了密集的监督,鼓励骨干网络发展空间信息增强的、操作感知的潜在表征。通过在家庭重排任务上的广泛评估,我们的方法在拾取、放置、打开和关闭操作中实现了持续的改进,显著优于直接模仿学习。我们的研究结果表明,通过辅助和多模态学习进行空间信息增强为VLA模型扩展到通用家用机器人提供了一个强有力的方向。

🔬 方法详解

问题定义:论文旨在解决移动操作机器人在复杂家庭环境中,由于缺乏对场景空间信息的有效理解和高维连续动作空间的控制能力,导致VLA模型性能不佳的问题。现有方法,如直接模仿学习,难以应对这种复杂性,泛化能力有限。

核心思路:论文的核心思路是通过空间信息增强来提升VLA模型的性能。具体来说,通过多模态输入(多视角RGB-D图像)提供更丰富的场景信息,并利用辅助任务的联合训练,促使模型学习到更具空间感知的潜在表征。这种方法旨在克服直接模仿学习的局限性,提高模型在复杂环境中的泛化能力。

技术框架:SG-VLA模型的整体框架包含以下几个主要模块:1) 多模态输入模块,融合多视角RGB图像、深度信息和短期时间历史。2) 视觉-语言特征提取模块,提取场景的视觉和语言特征。3) 共享特征表示模块,将视觉和语言特征融合为统一的潜在表征。4) 动作预测模块,基于潜在表征预测机器人的动作。5) 辅助任务解码器,从共享特征中重建中间信号,如机器人位置、关节配置、抓取可供性等。

关键创新:该论文最重要的技术创新点在于通过辅助任务的联合训练,增强了VLA模型对空间信息的理解和表征能力。与传统的VLA模型相比,SG-VLA模型能够学习到更具空间感知的潜在表征,从而更好地理解场景并预测合适的动作。此外,多模态输入也为模型提供了更丰富的场景信息。

关键设计:在关键设计方面,论文采用了以下技术细节:1) 多视角RGB-D图像融合,提供更全面的场景信息。2) 辅助任务包括重建全局机器人位置、关节配置、抓取可供性、目标物体相对姿态和分割掩码等,这些任务提供了密集的监督信号。3) 损失函数包括模仿学习损失和辅助任务损失的加权和,通过调整权重平衡不同任务之间的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SG-VLA模型在家庭重排任务中取得了显著的性能提升。实验结果表明,该模型在拾取、放置、打开和关闭等操作中均优于直接模仿学习方法。例如,在某些任务中,SG-VLA模型的成功率提升了10%以上,证明了空间信息增强策略的有效性。

🎯 应用场景

该研究成果可应用于家用服务机器人、智能仓储机器人等领域。通过提升机器人对环境的理解和操作能力,使其能够更好地完成物品整理、清洁、搬运等任务,提高生活质量和工作效率。未来,该技术有望应用于更复杂的环境和任务,例如灾难救援、医疗辅助等。

📄 摘要(原文)

Vision-Language-Action (VLA) models show promise for robotic control, yet performance in complex household environments remains sub-optimal. Mobile manipulation requires reasoning about global scene layout, fine-grained geometry, and high-dimensional continuous actions, making standard imitation learning insufficient. We introduce a framework for learning spatially-grounded VLA models that strengthens perception and representation through auxiliary task co-training and multi-modal input enhancement. Our method addresses the challenge of controlling a 13-dimensional action space involving coordinated base motion, arm articulation, and gripper actuation. To enrich spatial understanding, the model incorporates multi-view RGB observations, depth cues, and short temporal history, providing perspectives of both global scene structure and local manipulation context. To improve representation quality, we co-train auxiliary decoders that reconstruct interpretable intermediate signals - including global robot position, joint configurations, grasp affordances, target-object relative pose, and segmentation masks - from shared visual-language features. These objectives provide dense supervision that encourages the backbone to develop spatially grounded, manipulation-aware latent representations. Through extensive evaluation on home rearrangement tasks, our approach achieves consistent improvements across picking, placing, opening, and closing operations, substantially outperforming direct imitation learning. Our findings suggest that spatial grounding through auxiliary and multi-modal learning provides a strong direction for scaling VLA models toward general-purpose domestic robots.