EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence

📄 arXiv: 2510.20578v1 📥 PDF

作者: Ding Zou, Feifan Wang, Mengyu Ge, Siyuan Fan, Zongbing Zhang, Wei Chen, Lingfeng Wang, Zhongyou Hu, Wenrui Yan, Zhengwei Gao, Hao Wang, Weizhao Jin, Yu Zhang, Hainan Zhao, Mingliang Zhang, Xianxian Xi, Yaru Zhang, Wenyuan Li, Zhengguang Gao, Yurui Zhu

分类: cs.CV, cs.RO

发布日期: 2025-10-23

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

EmbodiedBrain:通过Step-GRPO提升具身智能任务规划性能,实现新SOTA

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 任务规划 视觉-语言模型 强化学习 长时程任务 Step-GRPO 生成奖励模型 模拟环境

📋 核心要点

  1. 现有具身智能体依赖的LLM/MLLM存在模型设计与智能体需求不匹配、实时性与性能难以兼顾等问题。
  2. EmbodiedBrain通过智能体对齐的数据结构和Step-GRPO训练方法,提升长时程任务规划的成功率。
  3. EmbodiedBrain在通用、规划和端到端模拟基准测试中均表现出色,达到具身基础模型的新SOTA。

📝 摘要(中文)

为了实现通用人工智能(AGI),具身AI智能体需要在物理环境中具备强大的空间感知、有效的任务规划和自适应执行能力。然而,目前用于具身任务的大型语言模型(LLM)和多模态LLM(MLLM)存在模型设计与智能体需求脱节、实时延迟与性能之间的权衡、以及使用非真实的离线评估指标等关键限制。为了解决这些挑战,我们提出了EmbodiedBrain,一个参数规模分别为7B和32B的新型视觉-语言基础模型。我们的框架采用与智能体对齐的数据结构,并采用强大的训练方法,该方法集成了大规模监督微调(SFT)和步增强组相对策略优化(Step-GRPO),通过将先前的步骤作为引导前体来提高长时程任务的成功率。此外,我们还整合了一个全面的奖励系统,包括在基础设施层面加速的生成奖励模型(GRM),以提高训练效率。为了实现彻底的验证,我们建立了一个包含通用、规划和端到端模拟基准的三部分评估系统,重点是提出并开源了一个新的、具有挑战性的模拟环境。实验结果表明,EmbodiedBrain在所有指标上都取得了优异的性能,为具身基础模型建立了新的最先进水平。为了为下一代通用具身智能体铺平道路,我们开源了所有数据、模型权重和评估方法。

🔬 方法详解

问题定义:现有具身智能体的任务规划能力受限于LLM/MLLM的设计与智能体需求之间的差距,以及实时性和性能之间的权衡。此外,离线评估指标无法真实反映智能体在实际环境中的表现。因此,需要一种更有效的模型和训练方法,以提升具身智能体在复杂环境中的任务规划和执行能力。

核心思路:EmbodiedBrain的核心思路是构建一个与智能体对齐的视觉-语言基础模型,并采用一种结合监督微调和强化学习的训练方法。通过Step-GRPO,模型能够学习利用先前的步骤作为引导,从而更好地规划长时程任务。同时,利用生成奖励模型(GRM)加速训练过程,提高训练效率。

技术框架:EmbodiedBrain的整体框架包括以下几个主要模块:1) 智能体对齐的数据结构,用于更好地表示具身任务;2) 基于大规模监督微调(SFT)的预训练阶段,使模型具备初步的视觉-语言理解能力;3) 基于Step-GRPO的强化学习阶段,通过将先前的步骤作为引导前体,优化长时程任务的策略;4) 生成奖励模型(GRM),用于加速奖励计算,提高训练效率。

关键创新:EmbodiedBrain的关键创新在于Step-Augumented Group Relative Policy Optimization (Step-GRPO) 训练方法,它通过将先前的步骤作为引导前体,有效地解决了长时程任务规划中的credit assignment问题,从而显著提高了任务成功率。此外,生成奖励模型(GRM)的引入也加速了训练过程。

关键设计:Step-GRPO的关键设计在于如何有效地利用先前的步骤信息。具体来说,模型会将之前的状态、动作和奖励作为输入,用于指导当前步骤的策略选择。GRM的关键设计在于如何构建一个能够准确评估智能体行为的奖励函数,并能够快速计算奖励值。论文中还提到使用了7B和32B两种参数规模的模型,具体网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EmbodiedBrain在各项评估指标上均取得了优异的性能,并在具身基础模型中建立了新的SOTA。具体性能数据未知,但论文强调了在通用、规划和端到端模拟基准测试中均超越了现有方法。此外,论文还开源了所有数据、模型权重和评估方法,为后续研究提供了便利。

🎯 应用场景

EmbodiedBrain的潜在应用领域包括机器人导航、家庭服务机器人、自动驾驶、虚拟助手等。该研究的实际价值在于提升具身智能体的任务规划和执行能力,使其能够在复杂环境中完成各种任务。未来,EmbodiedBrain有望成为通用具身智能体的基础模型,推动人工智能在物理世界的应用。

📄 摘要(原文)

The realization of Artificial General Intelligence (AGI) necessitates Embodied AI agents capable of robust spatial perception, effective task planning, and adaptive execution in physical environments. However, current large language models (LLMs) and multimodal LLMs (MLLMs) for embodied tasks suffer from key limitations, including a significant gap between model design and agent requirements, an unavoidable trade-off between real-time latency and performance, and the use of unauthentic, offline evaluation metrics. To address these challenges, we propose EmbodiedBrain, a novel vision-language foundation model available in both 7B and 32B parameter sizes. Our framework features an agent-aligned data structure and employs a powerful training methodology that integrates large-scale Supervised Fine-Tuning (SFT) with Step-Augumented Group Relative Policy Optimization (Step-GRPO), which boosts long-horizon task success by integrating preceding steps as Guided Precursors. Furthermore, we incorporate a comprehensive reward system, including a Generative Reward Model (GRM) accelerated at the infrastructure level, to improve training efficiency. For enable thorough validation, we establish a three-part evaluation system encompassing General, Planning, and End-to-End Simulation Benchmarks, highlighted by the proposal and open-sourcing of a novel, challenging simulation environment. Experimental results demonstrate that EmbodiedBrain achieves superior performance across all metrics, establishing a new state-of-the-art for embodied foundation models. Towards paving the way for the next generation of generalist embodied agents, we open-source all of our data, model weight, and evaluating methods, which are available at https://zterobot.github.io/EmbodiedBrain.github.io.