Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks
作者: Yajing Zhou, Xiangyu Kong
分类: cs.AI, cs.CV
发布日期: 2026-05-18
备注: 17 pages, 3 figures
💡 一句话要点
提出基于锚点的具身空间分解CoT,提升MLLM在感知瓶颈下的二阶ToM能力
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 具身智能 空间推理 心智理论 感知瓶颈
📋 核心要点
- 现有MLLM在具身空间智能方面存在“笛卡尔错觉”,缺乏对3D拓扑的理解,尤其是在需要二阶心智理论的多智能体环境中。
- 提出一种基于锚点的具身空间分解链式思考(CoT)方法,引导MLLM进行“几何到语义”的投影,克服传统方法对规则坐标转换的依赖。
- 实验表明,该方法在空间对称性和视野外模糊性方面优于现有方法,并在感知受限条件下实现了更鲁棒的推理性能。
📝 摘要(中文)
多模态大语言模型(MLLM)在通用推理方面表现出令人印象深刻的能力,但其具身空间智能仍然受到“笛卡尔错觉”的阻碍,即依赖于缺乏具身、3D拓扑理解的基于文本的概率分布。这种限制在多智能体环境中暴露无遗,这些环境不仅需要场景感知,还需要二阶心智理论(ToM)。具体来说,智能体A必须能够推断智能体B对环境的信念,而这种信念严格受智能体B的物理方向和感官限制的支配。本文通过一项新颖的视听任务来探究MLLM中两阶段空间推理的极限:要求智能体A预测智能体B对A的相对位置的估计。为了解决这个问题,我们提出了一个认知感觉瓶颈模块,该模块放弃了刚性的、基于规则的坐标转换。相反,我们引入了一种基于锚点的具身空间分解链式思考(CoT)。这引导MLLM完成“几何到语义”的投影,迫使其首先建立B的局部坐标系,然后根据A是否落在B的视觉截锥体内动态地加权视觉和听觉模态。广泛的评估表明,虽然当前的MLLM在空间对称性和视野外模糊性方面存在根本性的困难(建立了42%准确率的严格的零样本基线),但我们的感觉约束推理链在鲁棒性方面优于纯粹的自我中心和以自我为中心的基线。通过系统地对这些感知瓶颈进行基准测试,我们的工作揭示了当前MLLM空间推理的局限性,并为具身人工智能中的认知、模态感知推理建立了一个基础范式。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在具身空间推理中存在的“笛卡尔错觉”问题,即MLLM过度依赖文本信息,缺乏对3D空间拓扑的理解,导致在多智能体环境中进行二阶心智理论(ToM)推理时表现不佳。现有方法通常依赖于刚性的、基于规则的坐标转换,无法有效处理感知受限和视野外模糊性等问题。
核心思路:论文的核心思路是引入一个认知感觉瓶颈模块,并提出一种基于锚点的具身空间分解链式思考(CoT)方法。该方法通过“几何到语义”的投影,迫使MLLM首先建立智能体B的局部坐标系,然后根据智能体A是否在智能体B的视野范围内,动态地加权视觉和听觉模态。这种设计旨在模拟人类的认知过程,克服MLLM对文本信息的过度依赖,并提高其在感知受限环境中的推理能力。
技术框架:整体框架包含以下主要模块:1) 感知输入模块:接收来自视觉和听觉传感器的输入信息。2) 认知感觉瓶颈模块:模拟智能体B的感知限制,例如视野范围和听觉范围。3) 基于锚点的具身空间分解CoT模块:引导MLLM进行“几何到语义”的投影,首先建立智能体B的局部坐标系,然后动态加权视觉和听觉模态。4) 推理模块:根据CoT的结果,预测智能体B对智能体A的相对位置的估计。
关键创新:最重要的技术创新点在于提出了基于锚点的具身空间分解CoT方法,该方法放弃了刚性的、基于规则的坐标转换,而是通过“几何到语义”的投影,使MLLM能够更好地理解和推理3D空间关系。此外,认知感觉瓶颈模块的设计也模拟了真实世界中智能体的感知限制,提高了模型的鲁棒性。
关键设计:论文的关键设计包括:1) 锚点的选择:选择具有代表性的空间位置作为锚点,用于建立智能体B的局部坐标系。2) 模态加权策略:根据智能体A是否在智能体B的视野范围内,动态地调整视觉和听觉模态的权重。3) CoT的构建:设计合理的CoT步骤,引导MLLM逐步进行空间推理,从几何信息到语义信息的转换。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的基于锚点的具身空间分解CoT方法在空间对称性和视野外模糊性方面显著优于现有方法。在零样本设置下,现有MLLM的准确率仅为42%,而该方法能够显著提升性能,表明其在感知受限条件下具有更强的鲁棒性和推理能力。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、智能监控等领域。通过提升机器人在感知受限环境下的空间推理能力,可以使其更好地理解周围环境,并做出更合理的决策。此外,该研究也有助于开发更智能、更人性化的AI系统,例如辅助驾驶系统和智能家居系统。
📄 摘要(原文)
While Multi-Modal Large Language Models (MLLMs) demonstrate impressive capabilities in general reasoning, their embodied spatial intelligence remains hampered by a "Cartesian Illusion" - a reliance on text-based probability distributions that lack grounded, 3D topological understanding. This limitation is starkly exposed in multi-agent environments, which demand more than just scene perception; they require second-order Theory of Mind (ToM). Specifically, an Agent A must be able to infer Agent B's belief about the environment, governed strictly by Agent B's physical orientation and sensory limitations. In this paper, we probe the limits of two-stage spatial inference in MLLMs through a novel audio-visual task: requiring Agent A to predict Agent B's estimation of A's relative location. To solve this, we propose an Epistemic Sensory Bottleneck module that abandons rigid, rule-based coordinate transformations. Instead, we introduce an Anchor-Based Embodied Spatial Decomposition Chain-of-Thought (CoT). This guides the MLLM through a "geometric-to-semantic" projection, forcing it to first establish B's local coordinate system and then dynamically weight visual and auditory modalities based on whether A falls within B's visual frustum. Extensive evaluations reveal that while current MLLMs fundamentally struggle with spatial symmetry and out-of-view ambiguities (establishing a rigorous zero-shot baseline of 42% accuracy), our sensory-bounded reasoning chain robustly outperforms pure egocentric and allocentric baselines. By systematically benchmarking these perceptual bottlenecks, our work exposes the current limits of MLLM spatial reasoning and establishes a foundational paradigm for epistemic, modality-aware inference in Embodied AI.