OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

作者: Heyu Guo, Shanmu Wang, Ruichun Ma, Shiqi Jiang, Yasaman Ghasempour, Omid Abari, Baining Guo, Lili Qiu

分类: cs.CV, cs.RO

发布日期: 2025-11-03 (更新: 2025-11-06)

💡 一句话要点

OmniVLA：面向机器人操作的物理 grounding 多模态 VLA 模型，统一多传感器感知

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 多模态融合 机器人操作 视觉语言动作 传感器融合 物理 grounding

📋 核心要点

现有VLA模型主要依赖RGB相机，感知能力受限，难以应对复杂操作任务。
OmniVLA通过传感器掩码图像统一表示多模态信息，实现物理 grounding 的空间智能。
实验表明，OmniVLA在真实机器人操作任务中显著优于RGB-only和原始传感器输入模型。

📝 摘要（中文）

视觉-语言-动作 (VLA) 模型通过大规模视觉-语言预训练，在机器人动作预测方面表现出强大的泛化能力。然而，现有模型大多仅依赖 RGB 相机，限制了其感知和操作能力。我们提出了 OmniVLA，一个全模态 VLA 模型，集成了新的传感模态，以实现超越 RGB 感知的物理 grounding 空间智能。我们的核心方法是传感器掩码图像，一种统一的表示，将来自红外相机、毫米波雷达和麦克风阵列等传感器的空间 grounding 和物理意义的掩码叠加到 RGB 图像上。这种图像原生的统一保持了传感器输入接近 RGB 统计，便于训练，提供了跨传感器硬件的统一接口，并通过轻量级的每传感器投影器实现数据高效学习。在此基础上，我们提出了一个多传感器视觉-语言-动作模型架构，并基于 RGB 预训练的 VLA 主干网络训练模型。我们在具有挑战性的真实世界任务中评估了 OmniVLA，其中传感器模态感知指导机器人操作。OmniVLA 实现了 84% 的平均任务成功率，显著优于仅使用 RGB 和原始传感器输入的基线模型，分别提高了 59% 和 28%，同时显示出更高的学习效率和更强的泛化能力。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在机器人操作任务中，主要依赖RGB相机获取视觉信息，这限制了模型对环境的感知能力，尤其是在光照变化、遮挡等情况下。现有方法难以有效融合多种传感器信息，导致模型泛化能力不足。

核心思路：OmniVLA的核心思路是将来自不同传感器的信息（如红外相机、毫米波雷达、麦克风阵列）统一表示为“传感器掩码图像”，并叠加到RGB图像上。这种方法保持了传感器输入与RGB图像的统计相似性，便于模型训练，并提供了一个统一的传感器接口。

技术框架：OmniVLA的整体架构包括以下几个主要模块：1) 多传感器数据采集模块，负责采集来自不同传感器的原始数据；2) 传感器掩码图像生成模块，将原始传感器数据转换为空间 grounding 的掩码图像；3) 多模态融合模块，将传感器掩码图像叠加到RGB图像上，形成统一的输入表示；4) VLA模型，基于RGB预训练的VLA主干网络，对多模态输入进行处理，预测机器人动作。

关键创新：OmniVLA最重要的技术创新点在于“传感器掩码图像”的统一表示方法。这种方法将不同类型的传感器数据转换为图像形式，使其能够与RGB图像进行有效融合，同时保留了传感器数据的物理意义和空间信息。与直接使用原始传感器数据相比，这种方法更易于训练，并具有更好的泛化能力。

关键设计：OmniVLA的关键设计包括：1) 轻量级的每传感器投影器，用于将原始传感器数据转换为传感器掩码图像；2) 基于RGB预训练的VLA主干网络，利用大规模RGB图像数据进行预训练，提高模型的泛化能力；3) 针对机器人操作任务设计的损失函数，用于优化模型的动作预测性能。

📊 实验亮点

OmniVLA在真实机器人操作任务中取得了显著的性能提升。实验结果表明，OmniVLA的平均任务成功率达到84%，相比于仅使用RGB的基线模型提高了59%，相比于使用原始传感器输入的基线模型提高了28%。同时，OmniVLA还表现出更高的学习效率和更强的泛化能力。

🎯 应用场景

OmniVLA可应用于各种需要多模态感知和精确操作的机器人应用场景，如智能制造、家庭服务机器人、医疗机器人和自动驾驶等。通过融合多种传感器信息，OmniVLA能够提高机器人在复杂环境中的适应性和操作精度，实现更安全、更高效的自动化。

📄 摘要（原文）

Vision-language-action (VLA) models have shown strong generalization for robotic action prediction through large-scale vision-language pretraining. However, most existing models rely solely on RGB cameras, limiting their perception and, consequently, manipulation capabilities. We present OmniVLA, an omni-modality VLA model that integrates novel sensing modalities for physically-grounded spatial intelligence beyond RGB perception. The core of our approach is the sensor-masked image, a unified representation that overlays spatially grounded and physically meaningful masks onto the RGB images, derived from sensors including an infrared camera, a mmWave radar, and a microphone array. This image-native unification keeps sensor input close to RGB statistics to facilitate training, provides a uniform interface across sensor hardware, and enables data-efficient learning with lightweight per-sensor projectors. Built on this, we present a multisensory vision-language-action model architecture and train the model based on an RGB-pretrained VLA backbone. We evaluate OmniVLA on challenging real-world tasks where sensor-modality perception guides the robotic manipulation. OmniVLA achieves an average task success rate of 84%, significantly outperforms both RGB-only and raw-sensor-input baseline models by 59% and 28% respectively, meanwhile showing higher learning efficiency and stronger generalization capability.

OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册