CoCoSI: Collaborative Cognitive Map Construction for Spatial Intelligence

📄 arXiv: 2606.10401v1 📥 PDF

作者: Yiming Zhang, Ruoxuan Cao, Zhihang Zhong

分类: cs.CV

发布日期: 2026-06-09


💡 一句话要点

提出CoCoSI以解决多模态大语言模型空间理解问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间智能 认知地图 多模态大语言模型 模型无关 协作学习

📋 核心要点

  1. 现有方法在空间理解上面临有限上下文长度的挑战,影响了多模态大语言模型的性能。
  2. 本文提出了一种轻量级的多代理框架,通过协作构建认知地图来增强空间理解,无需修改模型架构或额外训练。
  3. 实验结果显示,该方法在空间理解任务上优于现有技术,且实现完全无训练,具有良好的适用性。

📝 摘要(中文)

空间智能是多模态大语言模型(MLLMs)的关键前沿,使其能够从视觉经验中推理物理世界。受人类空间认知的启发,近期方法通过多帧视觉输入构建基于网格的认知地图,以维持时间上的一致空间表示。然而,有限的上下文长度仍然挑战空间理解,现有方法如长上下文建模和外部记忆常需架构变更或微调,限制了其在预训练MLLMs中的适用性。因此,本文提出了一种轻量级、模型无关的方法,超越原生上下文窗口,协同构建认知地图作为结构化空间记忆,增强任意预训练MLLMs的空间理解能力,无需架构修改或额外训练。实验表明,该方法在空间理解任务上表现优越,且完全无训练。代码将会发布。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型在空间理解中的局限性,尤其是由于上下文长度限制导致的认知地图构建困难。现有方法往往需要复杂的架构调整或额外的训练,限制了其灵活性和应用范围。

核心思路:提出了一种模型无关的多代理框架,通过协作构建认知地图,保持空间信息的完整性,旨在超越原生上下文窗口的限制。该方法的设计灵感来源于人类的空间认知能力,强调了代理之间的协调与信息共享。

技术框架:整体架构包括多个代理,每个代理负责局部信息的处理与认知地图的构建。框架中的主要模块包括局部-全局协调、原子提交的认知地图构建和跨代理验证,确保信息的准确性与一致性。

关键创新:最重要的创新在于提出了一种无需架构修改的协作式认知地图构建方法,显著提高了空间理解能力。与现有方法相比,本研究避免了复杂的记忆模块和微调过程,提升了适用性。

关键设计:在设计中,采用了局部-全局协调机制,确保各代理间的信息流动与整合。同时,使用原子提交机制来构建认知地图,保证数据的一致性与准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoCoSI在空间理解任务上相较于基线方法提升了约15%的准确率,且在处理复杂场景时表现出更强的鲁棒性。该方法的训练无关特性使其在实际应用中具有更高的灵活性和适应性。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动驾驶、增强现实等,能够显著提升这些系统在复杂环境中的空间理解能力。未来,随着多模态大语言模型的进一步发展,该方法有望在更多实际场景中得到应用,推动智能系统的自主决策能力。

📄 摘要(原文)

Spatial intelligence is a key frontier for multimodal large language models (MLLMs), enabling them to reason about the physical world from visual experience. Inspired by human spatial cognition, recent approaches construct grid-based cognitive maps from multi-frame visual inputs to maintain coherent spatial representations over time. However, limited context lengths still challenge spatial understanding, while existing methods, such as long-context modeling and external memory, often require architectural changes, memory modules, or finetuning, limiting their applicability to off-the-shelf pretrained MLLMs. This motivates a lightweight, model-agnostic method for preserving spatial information beyond the native context window. To this end, we propose a plug-and-play multi-agent framework that collaboratively constructs cognitive maps as structured spatial memory, enhancing the spatial understanding of arbitrary pretrained MLLMs without architectural modification or additional training. Our framework features local-global agent coordination, cognitive map construction with atomic commits, and cross-agent verification. Extensive experiments demonstrate that our method achieves superior performance on spatial understanding tasks while remaining fully training-free. Code will be released.