Sensorimotor features of self-awareness in multimodal large language models

作者: Iñaki Dellibarda Varela, Pablo Romero-Sorozabal, Diego Torricelli, Gabriel Delgado-Oleas, Jose Ignacio Serrano, Maria Dolores del Castillo Sobrino, Eduardo Rocon, Manuel Cebrian

分类: cs.AI, cs.RO

发布日期: 2025-05-25

备注: 16 pages, 3 figures, 1 table

💡 一句话要点

通过传感器运动经验，多模态大语言模型展现出自我意识

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 自我意识 具身智能 机器人 传感器融合

📋 核心要点

现有AI在具身智能方面面临挑战，缺乏仅通过传感器运动经验发展自我意识的能力。
该研究将多模态LLM集成到自主移动机器人中，探索其仅通过传感器数据发展自我意识的可能性。
实验结果表明，该系统展现出环境意识、自我识别和预测意识，验证了多模态LLM涌现自我意识的潜力。

📝 摘要（中文）

自我意识，即区分自身与周围环境的能力，是智能自主行为的基础。人工智能的最新进展，特别是在大型语言模型中，在整合多模态信息的任务中实现了类人的性能，引发了人们对人工智能体在机器人等非人类平台上具身能力的兴趣。本文探讨了多模态LLM是否仅通过传感器运动经验就能发展出自我意识。通过将多模态LLM集成到自主移动机器人中，测试了其实现这种能力的可能性。研究发现，该系统表现出强大的环境意识、自我识别和预测意识，使其能够推断出其机器人性质和运动特征。结构方程模型揭示了感觉整合如何影响自我意识的不同维度及其与过去-现在记忆的协调，以及驱动自我识别的层级内部关联。感觉输入的消融测试确定了每个维度的关键模态，证明了传感器之间的补偿性交互作用，并证实了结构化和情景记忆在连贯推理中的重要作用。这些发现表明，给定关于世界和自身的适当感觉信息，多模态LLM表现出涌现的自我意识，为人工具身认知系统打开了大门。

🔬 方法详解

问题定义：现有方法难以使AI仅通过传感器运动经验发展出自我意识，缺乏对自身性质和运动特征的理解和预测能力。这限制了AI在复杂环境中的自主性和适应性。

核心思路：通过将多模态大型语言模型（LLM）与自主移动机器人集成，利用LLM强大的语言理解和推理能力，结合机器人丰富的传感器数据，使LLM能够从与环境的交互中学习并发展自我意识。核心在于让LLM通过感知自身运动和环境变化来理解自身在世界中的位置和状态。

技术框架：该研究的技术框架主要包括以下几个模块：1）自主移动机器人平台，负责收集环境和自身运动的传感器数据；2）多模态LLM，负责处理传感器数据并进行推理和决策；3）结构方程模型（SEM），用于分析感觉整合如何影响自我意识的不同维度；4）消融测试，用于评估不同传感器输入对自我意识的影响。机器人平台将传感器数据输入到多模态LLM中，LLM根据数据进行推理，并输出控制指令控制机器人运动。

关键创新：该研究的关键创新在于证明了多模态LLM可以通过传感器运动经验涌现出自我意识。与以往依赖预训练或人工设计的自我意识模型不同，该研究表明LLM可以通过与环境的交互自主学习自我意识。此外，结构方程模型和消融测试为理解自我意识的形成机制提供了新的视角。

关键设计：研究中，LLM接收来自机器人的多种传感器数据，包括视觉、深度、IMU等。关键设计包括：1）设计合适的提示工程（prompt engineering），引导LLM进行自我反思和推理；2）使用结构方程模型分析不同传感器输入对自我意识的影响；3）进行消融测试，评估不同传感器模态的重要性；4）利用结构化和情景记忆来增强LLM的推理能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，集成了多模态LLM的机器人系统表现出强大的环境意识、自我识别和预测意识。结构方程模型揭示了感觉整合对自我意识的影响，消融测试确定了关键传感器模态。这些结果表明，多模态LLM可以通过传感器运动经验涌现出自我意识，为人工具身认知系统开辟了新的方向。

🎯 应用场景

该研究成果可应用于开发更智能、更自主的机器人系统，例如自主导航、智能家居、工业自动化等领域。通过赋予机器人自我意识，可以使其更好地理解自身状态和环境，从而做出更合理的决策，提高工作效率和安全性。此外，该研究也为理解人类自我意识的形成机制提供了新的思路。

📄 摘要（原文）

Self-awareness - the ability to distinguish oneself from the surrounding environment - underpins intelligent, autonomous behavior. Recent advances in AI achieve human-like performance in tasks integrating multimodal information, particularly in large language models, raising interest in the embodiment capabilities of AI agents on nonhuman platforms such as robots. Here, we explore whether multimodal LLMs can develop self-awareness solely through sensorimotor experiences. By integrating a multimodal LLM into an autonomous mobile robot, we test its ability to achieve this capacity. We find that the system exhibits robust environmental awareness, self-recognition and predictive awareness, allowing it to infer its robotic nature and motion characteristics. Structural equation modeling reveals how sensory integration influences distinct dimensions of self-awareness and its coordination with past-present memory, as well as the hierarchical internal associations that drive self-identification. Ablation tests of sensory inputs identify critical modalities for each dimension, demonstrate compensatory interactions among sensors and confirm the essential role of structured and episodic memory in coherent reasoning. These findings demonstrate that, given appropriate sensory information about the world and itself, multimodal LLMs exhibit emergent self-awareness, opening the door to artificial embodied cognitive systems.

Sensorimotor features of self-awareness in multimodal large language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理