Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

作者: Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu

分类: cs.CV, cs.RO

发布日期: 2025-05-30

💡 一句话要点

提出Visual Embodied Brain框架，赋能多模态大语言模型在具身智能任务中的感知、推理与控制能力。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 多模态大语言模型 机器人控制 视觉空间推理 机器人适配器

📋 核心要点

现有方法难以统一多模态大语言模型在视觉空间推理和物理交互能力，限制了其在具身智能任务中的应用。
VeBrain将机器人控制重构为2D视觉空间中的文本任务，并设计机器人适配器实现文本指令到机器人动作的转换。
VeBrain-600k数据集包含多种能力，实验表明VeBrain在多模态和空间智能基准测试中优于现有MLLM。

📝 摘要（中文）

多模态大语言模型（MLLMs）的显著进展吸引了越来越多的关注，人们希望将其扩展到诸如腿式机器人等物理实体。这通常要求MLLMs不仅要掌握多模态理解能力，还要整合视觉空间推理和物理交互能力。然而，由于其根本差异，现有方法难以统一这些能力。本文提出了Visual Embodied Brain（VeBrain），这是一个用于现实世界中感知、推理和控制的统一框架。VeBrain将机器人控制重新定义为2D视觉空间中常见的基于文本的MLLM任务，从而统一了不同任务的目标和映射空间。然后，提出了一种新型机器人适配器，用于将来自MLLM的文本控制信号转换为真实机器人的运动策略。从数据的角度来看，我们进一步引入了VeBrain-600k，这是一个高质量的指令数据集，涵盖了VeBrain的各种能力。在VeBrain-600k中，我们花费了数百小时来收集、整理和注释数据，并采用多模态思维链（CoT）将不同的能力混合到单个对话中。在13个多模态基准测试和5个空间智能基准测试上的大量实验表明，VeBrain的性能优于现有的MLLM，如Qwen2.5-VL。当部署到腿式机器人和机械臂时，VeBrain与现有方法相比表现出强大的适应性、灵活性和组合能力。例如，与Qwen2.5-VL相比，VeBrain不仅在MMVet上取得了+5.6%的显著收益，而且在腿式机器人任务中也表现出色，平均收益+50%。

🔬 方法详解

问题定义：现有方法难以将多模态大语言模型（MLLMs）应用于具身智能任务，主要挑战在于如何统一MLLMs的多模态理解能力、视觉空间推理能力以及物理交互能力。现有方法通常难以在统一的框架下处理这些差异巨大的能力，导致在机器人控制等任务中表现不佳。

核心思路：VeBrain的核心思路是将复杂的机器人控制任务转化为MLLMs擅长的2D视觉空间中的文本任务。通过将机器人控制指令表示为文本，并利用MLLMs强大的语言理解和推理能力，可以简化控制流程，并实现更灵活的控制策略。此外，通过机器人适配器，将MLLMs生成的文本控制信号转换为实际的机器人运动策略，从而实现从感知到控制的闭环。

技术框架：VeBrain的整体框架包括以下几个主要模块：1) 视觉感知模块：用于获取环境的视觉信息，例如通过摄像头获取图像。2) 多模态大语言模型（MLLM）：接收视觉信息和文本指令，进行推理和决策，生成文本控制信号。3) 机器人适配器：将MLLM生成的文本控制信号转换为机器人的运动策略。4) 机器人执行模块：根据运动策略控制机器人执行相应的动作。整个流程是一个闭环系统，可以根据环境反馈不断调整控制策略。

关键创新：VeBrain的关键创新在于将机器人控制任务重新定义为2D视觉空间中的文本任务，从而能够利用MLLMs强大的语言理解和推理能力。此外，提出的机器人适配器能够有效地将文本控制信号转换为机器人的运动策略，弥合了语言和动作之间的鸿沟。VeBrain-600k数据集的构建也为模型的训练提供了高质量的数据支持。

关键设计：VeBrain的关键设计包括：1) 文本指令设计：设计清晰明确的文本指令，以便MLLM能够准确理解任务目标。2) 机器人适配器设计：设计能够将文本控制信号映射到机器人运动参数的适配器，例如使用神经网络进行映射。3) 损失函数设计：设计合适的损失函数，用于训练MLLM和机器人适配器，例如使用模仿学习或强化学习方法。4) 数据增强策略：采用数据增强策略，例如随机裁剪、旋转等，以提高模型的泛化能力。

📊 实验亮点

VeBrain在多个基准测试中取得了显著的性能提升。在MMVet上，VeBrain相比Qwen2.5-VL提升了+5.6%。在腿式机器人任务中，VeBrain的平均收益达到了+50%。这些实验结果表明，VeBrain在多模态理解、空间推理和机器人控制方面具有强大的能力，优于现有的MLLM。

🎯 应用场景

VeBrain具有广泛的应用前景，例如在家庭服务机器人、工业自动化、医疗辅助机器人等领域。它可以用于执行各种复杂的任务，例如物体抓取、导航、环境探索等。通过与人类进行自然语言交互，VeBrain可以实现更智能、更灵活的机器人控制，提高工作效率和生活质量。未来，VeBrain有望成为具身智能领域的重要技术支撑。

📄 摘要（原文）

The remarkable progress of Multimodal Large Language Models (MLLMs) has attracted increasing attention to extend them to physical entities like legged robot. This typically requires MLLMs to not only grasp multimodal understanding abilities, but also integrate visual-spatial reasoning and physical interaction capabilities. Nevertheless,existing methods struggle to unify these capabilities due to their fundamental differences.In this paper, we present the Visual Embodied Brain (VeBrain), a unified framework for perception, reasoning, and control in real world. VeBrain reformulates robotic control into common text-based MLLM tasks in the 2D visual space, thus unifying the objectives and mapping spaces of different tasks. Then, a novel robotic adapter is proposed to convert textual control signals from MLLMs to motion policies of real robots. From the data perspective, we further introduce VeBrain-600k, a high-quality instruction dataset encompassing various capabilities of VeBrain. In VeBrain-600k, we take hundreds of hours to collect, curate and annotate the data, and adopt multimodal chain-of-thought(CoT) to mix the different capabilities into a single conversation. Extensive experiments on 13 multimodal benchmarks and 5 spatial intelligence benchmarks demonstrate the superior performance of VeBrain to existing MLLMs like Qwen2.5-VL. When deployed to legged robots and robotic arms, VeBrain shows strong adaptability, flexibility, and compositional capabilities compared to existing methods. For example, compared to Qwen2.5-VL, VeBrain not only achieves substantial gains on MMVet by +5.6%, but also excels in legged robot tasks with +50% average gains.

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理