ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

📄 arXiv: 2510.12693v1 📥 PDF

作者: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang

分类: cs.AI

发布日期: 2025-10-14


💡 一句话要点

ERA:通过具身先验学习和在线强化学习将视觉语言模型转化为具身智能体

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉语言模型 强化学习 知识蒸馏 先验学习

📋 核心要点

  1. 现有具身智能系统依赖于大型视觉语言模型,部署成本高昂,而小型视觉语言模型则缺乏必要的知识和技能。
  2. ERA 框架通过具身先验学习和在线强化学习相结合,从多源数据中提取知识,并利用强化学习进行优化。
  3. 实验结果表明,ERA-3B 在 EB-ALFRED 和 EB-Manipulation 任务上均超越了 GPT-4o,并展现出良好的泛化能力。

📝 摘要(中文)

本文提出了一种名为具身推理智能体(ERA)的两阶段框架,旨在提升视觉语言模型(VLMs)在具身环境中的表现。第一阶段,具身先验学习,从三种数据中提炼基础知识:(1)轨迹增强先验,利用更强大的模型生成的结构化推理来丰富现有轨迹数据;(2)环境锚定先验,提供环境内的知识和 grounding 监督;(3)外部知识先验,从环境外的数据集中迁移通用知识。第二阶段,在线强化学习,基于这些先验进一步提升智能体的性能。为了克服智能体强化学习中的挑战,如长时程、稀疏奖励和训练不稳定,引入了自摘要进行上下文管理、密集奖励塑造和 turn-level 策略优化。在 EB-ALFRED 和 EB-Manipulation 任务上的实验表明,ERA-3B 优于基于 prompt 的大型模型和之前的基于训练的基线,分别实现了 8.4% 和 19.4% 的提升,并表现出对未见任务的泛化能力。ERA 为可扩展的具身智能提供了一条实用路径。

🔬 方法详解

问题定义:现有具身智能体依赖大型视觉语言模型,成本高昂,而小型模型性能不足,无法有效完成复杂环境中的感知、推理和交互任务。现有方法难以兼顾模型规模和性能,且在长时程、稀疏奖励的环境中训练不稳定。

核心思路:ERA 的核心思路是分阶段学习,首先通过具身先验学习为小型 VLM 注入知识,然后通过在线强化学习进行微调和优化。这种方法旨在利用多源数据,弥补小型 VLM 的知识差距,并提高其在复杂环境中的适应能力。

技术框架:ERA 框架包含两个主要阶段:具身先验学习和在线强化学习。具身先验学习阶段从轨迹增强先验、环境锚定先验和外部知识先验三个方面提取知识。在线强化学习阶段则利用自摘要、密集奖励塑造和 turn-level 策略优化来提升智能体的性能。整体流程是先进行知识蒸馏,再进行强化学习微调。

关键创新:ERA 的关键创新在于其具身先验学习方法,它有效地利用了多种数据源,包括轨迹数据、环境数据和外部知识,从而为小型 VLM 提供了丰富的知识基础。此外,在线强化学习阶段的自摘要机制和 turn-level 策略优化也提高了训练的稳定性和效率。

关键设计:在具身先验学习阶段,使用了不同的损失函数来训练模型,例如模仿学习损失、对比学习损失等。在线强化学习阶段,自摘要模块使用 Transformer 网络来压缩历史信息。密集奖励塑造则根据任务的特点设计不同的奖励函数,以引导智能体学习。Turn-level 策略优化则是在每个 turn 结束时更新策略,而不是等到整个 episode 结束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ERA-3B 在 EB-ALFRED 和 EB-Manipulation 任务上均取得了显著的性能提升。在 EB-ALFRED 任务上,ERA-3B 相比 GPT-4o 提升了 8.4%。在 EB-Manipulation 任务上,ERA-3B 相比 GPT-4o 提升了 19.4%。此外,ERA-3B 还展现出良好的泛化能力,能够在未见过的任务上取得较好的表现。

🎯 应用场景

ERA 框架具有广泛的应用前景,可用于开发各种具身智能体,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。该研究有助于降低具身智能体的开发成本,并提高其在复杂环境中的适应性和泛化能力,从而推动具身智能技术的普及和应用。

📄 摘要(原文)

Recent advances in embodied AI highlight the potential of vision language models (VLMs) as agents capable of perception, reasoning, and interaction in complex environments. However, top-performing systems rely on large-scale models that are costly to deploy, while smaller VLMs lack the necessary knowledge and skills to succeed. To bridge this gap, we present \textit{Embodied Reasoning Agent (ERA)}, a two-stage framework that integrates prior knowledge learning and online reinforcement learning (RL). The first stage, \textit{Embodied Prior Learning}, distills foundational knowledge from three types of data: (1) Trajectory-Augmented Priors, which enrich existing trajectory data with structured reasoning generated by stronger models; (2) Environment-Anchored Priors, which provide in-environment knowledge and grounding supervision; and (3) External Knowledge Priors, which transfer general knowledge from out-of-environment datasets. In the second stage, we develop an online RL pipeline that builds on these priors to further enhance agent performance. To overcome the inherent challenges in agent RL, including long horizons, sparse rewards, and training instability, we introduce three key designs: self-summarization for context management, dense reward shaping, and turn-level policy optimization. Extensive experiments on both high-level planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate that ERA-3B surpasses both prompting-based large models and previous training-based baselines. Specifically, it achieves overall improvements of 8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits strong generalization to unseen tasks. Overall, ERA offers a practical path toward scalable embodied intelligence, providing methodological insights for future embodied AI systems.