Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning

📄 arXiv: 2603.14811v1 📥 PDF

作者: Heng Zhou, Li Kang, Yiran Qin, Xiufeng Song, Ao Yu, Zilu Zhang, Haoming Song, Kaixin Xu, Yuchen Fan, Dongzhan Zhou, Xiaohong Liu, Ruimao Zhang, Philip Torr, Lei Bai, Zhenfei Yin

分类: cs.RO, cs.CV

发布日期: 2026-03-16


💡 一句话要点

提出CoRL框架,解决具身多智能体系统中基于强化学习的协同空间推理问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 多智能体系统 强化学习 空间推理 跨视图融合

📋 核心要点

  1. 具身多智能体系统面临从分布式、局部视角理解世界的挑战,现有方法难以有效融合异构视点。
  2. 提出CoRL框架,结合思维链微调和强化学习,利用跨视图空间奖励引导模型进行跨视图实体解析。
  3. 实验表明,CoRL在E2W基准上优于现有基线,并成功应用于真实世界多机器人操作。

📝 摘要(中文)

本文提出了Ego-to-World (E2W) 基准,用于评估视觉-语言模型融合异构视点的能力,包含全局计数、关系位置推理和面向动作的抓取三个任务。针对此问题,提出了CoRL框架,该框架结合了思维链监督微调和使用组相对策略优化的强化学习。其核心组件是跨视图空间奖励 (CVSR),通过将推理步骤与视觉证据联系起来,提供密集的任务对齐反馈,确保连贯的跨视图实体解析,并引导模型做出正确的最终预测。在E2W上的实验表明,CoRL在推理和感知-接地指标上始终优于强大的专有和开源基线。CoRL还推广到外部空间推理基准,并支持使用校准的多相机装置进行有效的真实世界多机器人操作,展示了跨视图定位和成功的抓取放置执行。E2W和CoRL共同为从分布式、以自我为中心的观察中学习以世界为中心的场景理解奠定了基础,从而推进了协作具身人工智能。

🔬 方法详解

问题定义:具身多智能体系统需要从多个智能体的自中心视角理解全局环境,但每个智能体的视角都受到遮挡和歧义的限制。现有方法难以有效地融合这些异构视点,进行全局推理和决策。因此,需要一个能够有效利用多视角信息,进行空间推理和动作规划的框架。

核心思路:CoRL的核心思路是利用思维链(Chain-of-Thought)方法进行逐步推理,并通过强化学习优化推理过程。通过跨视图空间奖励(CVSR)将推理步骤与视觉证据联系起来,从而提供密集的任务对齐反馈,引导模型进行正确的跨视图实体解析和最终预测。这种方法旨在克服传统方法中缺乏明确的跨视图信息融合和任务导向的训练信号的问题。

技术框架:CoRL是一个两阶段框架。第一阶段,使用思维链方法进行监督微调,使模型具备初步的推理能力。第二阶段,使用强化学习进行优化,采用组相对策略优化(Group-Relative Policy Optimization)算法,鼓励智能体之间的协作。框架的核心组件是跨视图空间奖励(CVSR),它根据推理步骤的正确性提供奖励信号。

关键创新:CoRL的关键创新在于跨视图空间奖励(CVSR)的设计。CVSR通过将推理步骤与视觉证据联系起来,为模型提供密集的任务对齐反馈。这种奖励机制能够有效地引导模型进行跨视图实体解析,并做出正确的最终预测。与传统的稀疏奖励或基于最终结果的奖励相比,CVSR能够更有效地训练模型进行空间推理。

关键设计:CVSR包含多个组成部分,用于评估推理步骤的正确性。例如,对于全局计数任务,CVSR会评估模型是否正确识别了每个智能体视角中的物体,并正确地将这些信息融合到全局计数中。对于关系位置推理任务,CVSR会评估模型是否正确识别了物体之间的空间关系,并正确地推断出它们之间的相对位置。损失函数包括监督学习损失和强化学习奖励损失,网络结构基于Transformer模型,用于处理视觉和语言信息。

📊 实验亮点

CoRL在E2W基准测试中,在全局计数、关系位置推理和面向动作的抓取三个任务上,均超越了现有的专有和开源基线模型。此外,CoRL还成功地推广到外部空间推理基准,并在真实世界的多机器人操作中实现了有效的跨视图定位和抓取放置。

🎯 应用场景

该研究成果可应用于多机器人协同环境探索、智能仓储、自动驾驶等领域。通过融合多个智能体的视角信息,可以提高环境感知能力,实现更高效、更安全的任务执行。未来,该技术有望应用于更复杂的协作任务,例如灾难救援、智能制造等。

📄 摘要(原文)

Understanding the world from distributed, partial viewpoints is a fundamental challenge for embodied multi-agent systems. Each agent perceives the environment through an ego-centric view that is often limited by occlusion and ambiguity. To study this problem, we introduce the Ego-to-World (E2W) benchmark, which evaluates a vision-language model's ability to fuse heterogeneous viewpoints across three tasks: (i) global counting, (ii) relational location reasoning, and (iii) action-oriented grasping that requires predicting view-specific image coordinates. To address this setting, we propose CoRL, a two-stage framework that combines Chain-of-Thought supervised fine-tuning with reinforcement learning using Group-Relative Policy Optimization. Its core component, the Cross-View Spatial Reward (CVSR), provides dense task-aligned feedback by linking reasoning steps to visual evidence, ensuring coherent cross-view entity resolution, and guiding the model toward correct final predictions. Experiments on E2W show that CoRL consistently surpasses strong proprietary and open-source baselines on both reasoning and perception-grounding metrics, while ablations further confirm the necessity of each CVSR component. Beyond that, CoRL generalizes to external spatial reasoning benchmarks and enables effective real-world multi-robot manipulation with calibrated multi-camera rigs, demonstrating cross-view localization and successful grasp-and-place execution. Together, E2W and CoRL provide a principled foundation for learning world-centric scene understanding from distributed, ego-centric observations, advancing collaborative embodied AI.