Seeing Together:Multi-Robot Cooperative Egocentric Spatial Reasoning with Multimodal Large Language Models
作者: Kunyu Peng, Zhikun Zhou, Kailun Yang, Di Wen, Ruiping Liu, Yufan Chen, Junwei Zheng, Hao Shi, Yi Zhou, M. Saquib Sarfraz, Danda Pani Paudel, Luc Van Gool
分类: cs.CV
发布日期: 2026-05-18
🔗 代码/项目: GITHUB
💡 一句话要点
提出SP-CoR框架,解决多机器人协同的动态空间推理难题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多机器人协同 空间推理 多模态大语言模型 自我中心视觉 视图融合
📋 核心要点
- 现有方法难以有效利用多机器人视角信息进行协同空间推理,尤其是在动态环境中。
- SP-CoR框架通过动态感知采样、光谱和物理引导的视图融合以及物理对齐的提示蒸馏,提升协同推理能力。
- 实验表明,SP-CoR在多个数据集上显著优于现有方法,并具有更好的泛化能力。
📝 摘要(中文)
多模态大型语言模型(MLLM)在以自我为中心的视频理解方面取得了显著进展,但它们从多个具身视点进行协同推理的能力仍未得到充分探索。本文研究了多机器人协同动态空间推理问题,模型需要通过整合来自一组移动机器人的同步自我中心视频来回答空间、时间、可见性和协调问题。为此,我们引入了CoopSR,这是第一个针对此任务的基准,以及EgoTeam,一个多机器人自我中心QA数据集。EgoTeam包含114,227个QA对,涵盖19种问题类型、四个难度等级和Habitat和iGibson中的三种团队规模,以及使用两个四足机器人收集的约2,326个QA的真实世界测试集。我们进一步提出了SP-CoR(光谱和物理信息协同推理器),这是一个用于细粒度协同空间推理的MLLM框架。SP-CoR结合了动态感知多机器人帧采样、光谱和物理引导的视图融合以及物理对齐的提示蒸馏,使模型能够在训练期间受益于特权机器人姿态监督,同时在测试时仅需要自我中心视频。在22个MLLM基线上,SP-CoR始终提高协同推理能力,在Habitat上优于最强的微调基线+3.87%,在iGibson上优于+7.12%。它还显示出对未见过的团队规模和真实世界机器人测试的更强的泛化能力。
🔬 方法详解
问题定义:论文旨在解决多机器人协同环境下的动态空间推理问题。现有方法难以有效整合来自多个机器人视角的自我中心视频信息,无法准确回答关于空间关系、时间变化、可见性和机器人间协调的问题,尤其是在动态环境中,这限制了多机器人协同任务的性能。
核心思路:论文的核心思路是利用光谱和物理信息来指导多机器人视角的融合,并结合物理对齐的提示蒸馏,从而提升多模态大型语言模型(MLLM)在协同空间推理方面的能力。通过引入动态感知采样,模型能够关注更重要的帧,提高效率。
技术框架:SP-CoR框架包含三个主要模块:1) 动态感知多机器人帧采样:根据机器人的运动状态选择关键帧;2) 光谱和物理引导的视图融合:利用光谱分析和物理约束来融合来自不同机器人视角的特征;3) 物理对齐的提示蒸馏:利用机器人姿态等特权信息来训练模型,并在推理时仅使用自我中心视频。整体流程是从多机器人视频中提取特征,然后通过融合和推理得到答案。
关键创新:SP-CoR的关键创新在于结合了光谱和物理信息来指导多机器人视角的融合。传统方法通常直接拼接或平均不同视角的特征,忽略了视角之间的相关性和物理约束。SP-CoR通过光谱分析提取视角之间的关系,并利用物理引擎模拟机器人运动,从而更有效地融合信息。
关键设计:在视图融合模块中,论文可能使用了图神经网络(GNN)来建模机器人之间的关系,并利用注意力机制来加权不同视角的信息。损失函数可能包含空间一致性损失和时间一致性损失,以确保推理结果的准确性和稳定性。提示蒸馏过程可能使用了知识蒸馏技术,将从特权信息中学习到的知识迁移到仅使用自我中心视频的模型中。
🖼️ 关键图片
📊 实验亮点
SP-CoR在Habitat和iGibson数据集上分别取得了+3.87%和+7.12%的性能提升,显著优于现有的多模态大型语言模型。此外,SP-CoR在未见过的团队规模和真实世界机器人测试中表现出更强的泛化能力,证明了其在实际应用中的潜力。
🎯 应用场景
该研究成果可应用于多机器人协同搜索救援、协同目标跟踪、智能交通管理等领域。通过提升多机器人协同环境下的空间推理能力,可以提高机器人的自主性和协作效率,从而更好地完成复杂任务,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have made substantial progress in egocentric video understanding, but their ability to reason cooperatively from multiple embodied viewpoints remains largely unexplored. We study this problem through multi-robot cooperative dynamic spatial reasoning, where a model must answer spatial, temporal, visibility, and coordination questions by integrating synchronized egocentric videos from a team of moving robots. To support this setting, we introduce CoopSR, the first benchmark for this task, together with EgoTeam, a multi-robot egocentric QA dataset. EgoTeam contains 114,227 QA pairs spanning 19 question types, four difficulty tiers, and three team sizes in Habitat and iGibson, along with a real-world test set of around 2,326 QAs collected using two quadruped robots. We further propose SP-CoR (Spectral and Physics-Informed Cooperative Reasoner), an MLLM framework for fine-grained cooperative spatial reasoning. SP-CoR combines dynamics-aware multi-robot frame sampling, spectral- and physics-guided view fusion, and physics-aligned prompt distillation, enabling the model to benefit from privileged robot-pose supervision during training while requiring only egocentric videos at test time. Across 22 MLLM baselines, SP-CoR consistently improves cooperative reasoning, outperforming the strongest fine-tuned baseline by +3.87% on Habitat and +7.12% on iGibson. It also shows stronger generalization to unseen team sizes and real-world robot tests. Code can be found at https://github.com/KPeng9510/seeing-together.git.