Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

作者: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Hongyao Tang, Jianye Hao

分类: cs.RO, cs.AI, cs.LG

发布日期: 2026-04-07

💡 一句话要点

Embodied-R1：强化具身推理，实现通用机器人操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 机器人操作 视觉语言模型 强化学习 零样本泛化

📋 核心要点

现有具身AI方法在泛化性方面存在不足，主要受限于数据稀缺和不同机器人平台之间的差异。
论文提出以“指向”作为统一的中间表示，连接视觉语言理解和底层动作，实现跨平台的通用操作。
Embodied-R1模型在多个基准测试中达到SOTA，并在真实机器人任务中展现出强大的零样本泛化能力。

📝 摘要（中文）

具身AI的泛化能力受到“视觉到动作鸿沟”的限制，这源于数据稀缺和具身异构性。为了解决这个问题，我们率先提出“指向”作为一种统一的、与具身无关的中间表示，定义了四个核心的具身指向能力，将高层视觉-语言理解与低层动作原语连接起来。我们引入了Embodied-R1，一个专门为具身推理和指向设计的30亿参数视觉-语言模型（VLM）。我们使用广泛的具身和通用视觉推理数据集作为来源，构建了一个大规模数据集Embodied-Points-200K，它支持关键的具身指向能力。然后，我们使用一个专门的多任务奖励设计的两阶段强化微调（RFT）课程来训练Embodied-R1。Embodied-R1在11个具身空间和指向基准测试中取得了最先进的性能。关键的是，它通过在SIMPLEREnv中达到56.2%的成功率，并在8个真实世界的XArm任务中达到87.5%的成功率，展示了强大的零样本泛化能力，比强大的基线提高了62%。此外，该模型对各种视觉干扰表现出很高的鲁棒性。我们的工作表明，以指向为中心的表示，结合RFT训练范式，为缩小机器人中的感知-动作差距提供了一条有效且通用的途径。

🔬 方法详解

问题定义：现有具身AI方法难以泛化到不同的机器人平台和任务中，主要原因是“视觉到动作鸿沟”，即高层视觉理解和底层动作执行之间存在差距。数据稀缺性和不同机器人平台的异构性加剧了这个问题。现有方法通常需要针对特定任务进行大量训练，难以适应新的环境和机器人。

核心思路：论文的核心思路是将“指向”作为一种统一的、与具身无关的中间表示。通过让模型学习如何根据视觉和语言指令指向目标对象，可以将高层视觉-语言理解与低层动作原语连接起来。这种方法降低了对特定机器人平台和任务的依赖，从而提高了泛化能力。

技术框架：Embodied-R1的整体框架包含以下几个主要模块：1) 视觉-语言模型（VLM）：用于理解视觉输入和语言指令；2) 指向模块：用于根据VLM的输出，生成指向目标对象的动作；3) 强化微调（RFT）模块：用于优化模型的指向能力和整体性能。训练过程包括两个阶段：首先，使用大规模数据集进行预训练；然后，使用RFT进行微调。

关键创新：论文最重要的技术创新点在于提出了“指向”作为一种统一的中间表示。与现有方法直接学习从视觉输入到动作的映射不同，Embodied-R1学习如何指向目标对象，从而解耦了视觉理解和动作执行。这种方法使得模型可以更容易地泛化到不同的机器人平台和任务中。

关键设计：Embodied-R1的关键设计包括：1) 大规模数据集Embodied-Points-200K，用于训练模型的指向能力；2) 两阶段强化微调（RFT）课程，包括预训练和微调两个阶段；3) 多任务奖励设计，用于优化模型的指向精度、动作效率和任务完成率。具体来说，RFT阶段使用PPO算法，奖励函数结合了指向精度、动作步数和任务成功与否等因素。

🖼️ 关键图片

📊 实验亮点

Embodied-R1在11个具身空间和指向基准测试中取得了SOTA性能。更重要的是，它在SIMPLEREnv中实现了56.2%的成功率，并在8个真实世界的XArm任务中实现了87.5%的成功率，无需任何特定任务的微调。与强大的基线相比，零样本泛化能力提高了62%，同时对视觉干扰表现出很高的鲁棒性。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如家庭服务机器人、工业自动化机器人和医疗辅助机器人。通过提高机器人的泛化能力，可以使其更好地适应不同的环境和任务，从而提高工作效率和安全性。未来，该技术有望实现更智能、更灵活的机器人系统。

📄 摘要（原文）

Generalization in embodied AI is hindered by the "seeing-to-doing gap," which stems from data scarcity and embodiment heterogeneity. To address this, we pioneer "pointing" as a unified, embodiment-agnostic intermediate representation, defining four core embodied pointing abilities that bridge high-level vision-language comprehension with low-level action primitives. We introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed for embodied reasoning and pointing. We use a wide range of embodied and general visual reasoning datasets as sources to construct a large-scale dataset, Embodied-Points-200K, which supports key embodied pointing capabilities. We then train Embodied-R1 using a two-stage Reinforced Fine-tuning (RFT) curriculum with a specialized multi-task reward design. Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and pointing benchmarks. Critically, it demonstrates robust zero-shot generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5% across 8 real-world XArm tasks without any task-specific fine-tuning, representing a 62% improvement over strong baselines. Furthermore, the model exhibits high robustness against diverse visual disturbances. Our work shows that a pointing-centric representation, combined with an RFT training paradigm, offers an effective and generalizable pathway to closing the perception-action gap in robotics.

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理