Growing Perspectives: Modelling Embodied Perspective Taking and Inner Narrative Development Using Large Language Models
作者: Sabrina Patania, Luca Annese, Anna Lambiase, Anita Pellegrini, Tom Foulsham, Azzurra Ruggeri, Silvia Rossi, Silvia Serino, Dimitri Ognibene
分类: cs.CL, cs.AI, cs.HC, cs.RO
发布日期: 2025-09-15
备注: Accepted at ICDL https://icdl2025.fel.cvut.cz/
💡 一句话要点
提出PerspAct系统,利用大语言模型模拟具身视角采择和内部叙事发展
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 视角采择 大型语言模型 人机协作 认知建模
📋 核心要点
- 现有计算模型在模拟人类协作时,很少同时考虑语言和具身视角采择。
- PerspAct系统结合ReAct范式和大型语言模型,模拟视角采择的发展阶段,并以Selman理论为基础。
- 实验表明,GPT能生成符合发展阶段的内部叙事,并影响协作表现,语言交流能完善内部表征。
📝 摘要(中文)
语言和具身视角采择是人类协作的关键,但鲜有计算模型同时关注两者。本研究探讨了PerspAct系统,该系统将ReAct(推理和行动)范式与大型语言模型(LLMs)相结合,以模拟视角采择的发展阶段,并以Selman的理论为基础。通过扩展的指挥者任务,我们评估了GPT生成与指定发展阶段一致的内部叙事的能力,并评估这些叙事如何定性地(行动选择)和定量地(任务效率)影响协作表现。结果表明,GPT在任务执行前能够可靠地生成符合发展阶段的叙事,但在交互过程中通常会转向更高级的阶段,这表明语言交流有助于完善内部表征。较高发展阶段通常能提高协作效率,而早期阶段在复杂环境中会产生更不稳定的结果。这些发现突出了在LLM中整合具身视角采择和语言以更好地模拟发展动态的潜力,并强调了在语言和具身任务结合期间评估内部语音的重要性。
🔬 方法详解
问题定义:论文旨在解决计算模型在模拟人类协作时,缺乏对具身视角采择和内部叙事发展进行有效建模的问题。现有方法难以同时处理语言和具身认知,无法准确模拟人类在协作中的视角转换和策略调整。
核心思路:论文的核心思路是将ReAct范式与大型语言模型(LLMs)相结合,构建一个名为PerspAct的系统。该系统能够模拟Selman视角采择理论中的不同发展阶段,并生成与这些阶段相符的内部叙事。通过让LLM在协作任务中扮演不同的角色,并观察其行为和内部叙事的变化,研究人员可以评估LLM在具身情境下进行视角采择的能力。
技术框架:PerspAct系统的整体架构包括以下几个主要模块:1) 环境交互模块:负责与模拟环境进行交互,接收环境信息并执行动作。2) ReAct模块:基于观察到的环境信息进行推理(Reason)并生成行动计划(Act)。3) LLM模块:使用大型语言模型(如GPT)生成内部叙事,并根据Selman的视角采择理论调整叙事内容。4) 协作模块:将LLM生成的内部叙事与ReAct模块的行动计划相结合,指导智能体在协作任务中的行为。
关键创新:论文的关键创新在于将具身视角采择和内部叙事发展融入到LLM中。通过模拟Selman的视角采择理论,PerspAct系统能够更好地理解人类在协作中的认知过程。此外,该系统还能够生成与不同发展阶段相符的内部叙事,从而更准确地模拟人类的思维方式。
关键设计:在实验中,研究人员使用了扩展的指挥者任务来评估PerspAct系统的性能。该任务要求两个智能体(一个指挥者和一个执行者)进行协作,共同完成一个目标。研究人员通过调整LLM的参数,使其能够模拟Selman视角采择理论中的不同发展阶段。此外,研究人员还设计了一系列指标来评估智能体的协作效率和内部叙事的质量。例如,他们使用任务完成时间来衡量协作效率,并使用人工评估来判断内部叙事是否符合指定的视角采择阶段。
📊 实验亮点
实验结果表明,GPT能够可靠地生成符合发展阶段的内部叙事,并在交互过程中根据语言交流调整叙事内容。较高发展阶段通常能提高协作效率,而早期阶段在复杂环境中会产生更不稳定的结果。这些发现验证了PerspAct系统的有效性,并为未来研究提供了新的方向。
🎯 应用场景
该研究成果可应用于开发更智能、更具协作能力的机器人和虚拟助手。通过模拟人类的视角采择能力,这些智能体能够更好地理解用户的需求,并与用户进行更有效的沟通和协作。此外,该研究还可以为教育和心理学领域提供新的工具,帮助人们更好地理解和发展自身的视角采择能力。
📄 摘要(原文)
Language and embodied perspective taking are essential for human collaboration, yet few computational models address both simultaneously. This work investigates the PerspAct system [1], which integrates the ReAct (Reason and Act) paradigm with Large Language Models (LLMs) to simulate developmental stages of perspective taking, grounded in Selman's theory [2]. Using an extended director task, we evaluate GPT's ability to generate internal narratives aligned with specified developmental stages, and assess how these influence collaborative performance both qualitatively (action selection) and quantitatively (task efficiency). Results show that GPT reliably produces developmentally-consistent narratives before task execution but often shifts towards more advanced stages during interaction, suggesting that language exchanges help refine internal representations. Higher developmental stages generally enhance collaborative effectiveness, while earlier stages yield more variable outcomes in complex contexts. These findings highlight the potential of integrating embodied perspective taking and language in LLMs to better model developmental dynamics and stress the importance of evaluating internal speech during combined linguistic and embodied tasks.