LLMs and their Limited Theory of Mind: Evaluating Mental State Annotations in Situated Dialogue

📄 arXiv: 2509.02292v1 📥 PDF

作者: Katharine Kowalyshyn, Matthias Scheutz

分类: cs.CL

发布日期: 2025-09-02


💡 一句话要点

提出双步框架,利用LLM评估团队对话中共享心智模型的偏差。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 共享心智模型 团队对话 偏差检测 自然语言理解

📋 核心要点

  1. 现有方法难以有效评估团队对话中共享心智模型的偏差,尤其是在复杂场景下。
  2. 利用LLM作为标注者和偏差检测器,构建双步框架,分析团队对话中的SMM元素。
  3. 实验结果表明,LLM在简单任务中表现良好,但在空间推理和歧义消除方面存在系统性误差。

📝 摘要(中文)

本文提出了一种新颖的两步框架,利用大型语言模型(LLM)作为人类风格的标注者,分析团队对话以追踪团队的共享心智模型(SMM),并作为自动偏差检测器,识别个体心理状态之间的差异。第一步,LLM通过识别来自合作远程搜索任务(CReST)语料库中面向任务的对话中的SMM元素来生成注释。然后,第二个LLM将这些LLM衍生的注释和人工注释与黄金标准标签进行比较,以检测和描述差异。本文为该用例定义了一个SMM一致性评估框架,并将其应用于六个CReST对话,最终生成:(1)人类和LLM注释的数据集;(2)可复现的SMM一致性评估框架;(3)基于LLM的偏差检测的实证评估。结果表明,尽管LLM在简单的自然语言注释任务中表现出明显的一致性,但在需要空间推理或消除韵律线索歧义的场景中,它们会系统性地出错。

🔬 方法详解

问题定义:论文旨在解决如何有效评估团队对话中共享心智模型(SMM)的一致性问题,并检测团队成员之间心理状态的偏差。现有方法在处理复杂对话场景,特别是需要空间推理和消除歧义时,存在不足,难以准确捕捉SMM的细微差异。

核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,模拟人类标注者,自动识别和标注对话中的SMM元素,并通过比较不同LLM生成的注释以及人工注释,来检测和量化SMM的偏差。这种方法旨在提供一种可扩展且可复现的SMM一致性评估框架。

技术框架:该框架包含两个主要步骤:1) LLM标注:使用一个LLM对CReST语料库中的对话进行标注,识别对话中与SMM相关的元素。2) 偏差检测:使用另一个LLM比较LLM生成的注释和人工注释,并与黄金标准标签进行对比,以检测和表征SMM的偏差。该框架还定义了一个SMM一致性评估方法,用于量化不同注释之间的相似性和差异性。

关键创新:该论文的关键创新在于将LLM应用于SMM的自动标注和偏差检测,提出了一种新颖的双步框架。与传统的人工标注方法相比,该方法具有更高的效率和可扩展性。此外,该框架还提供了一种可复现的SMM一致性评估方法,为后续研究提供了基准。

关键设计:论文使用了来自CReST语料库的面向任务的对话。在LLM标注阶段,使用了特定的prompt工程技术来指导LLM识别SMM元素。在偏差检测阶段,使用了多种相似性度量方法来比较不同注释之间的差异。此外,论文还定义了一系列指标来评估LLM在不同场景下的表现,例如空间推理和歧义消除。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在简单的自然语言注释任务中表现出较高的一致性,但在需要空间推理或消除韵律线索歧义的场景中,LLM会系统性地出错。例如,LLM在识别对话中涉及空间关系的语句时,准确率明显低于人工标注。该研究揭示了LLM在处理复杂认知任务方面的局限性,为后续研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于团队协作工具、智能会议系统和人机协作机器人等领域,帮助提高团队沟通效率,减少误解和冲突。通过自动检测团队成员之间的心理状态偏差,可以及时发现潜在问题,并采取相应的干预措施,从而提升团队整体绩效。未来,该技术还可用于个性化学习和心理健康评估。

📄 摘要(原文)

What if large language models could not only infer human mindsets but also expose every blind spot in team dialogue such as discrepancies in the team members' joint understanding? We present a novel, two-step framework that leverages large language models (LLMs) both as human-style annotators of team dialogues to track the team's shared mental models (SMMs) and as automated discrepancy detectors among individuals' mental states. In the first step, an LLM generates annotations by identifying SMM elements within task-oriented dialogues from the Cooperative Remote Search Task (CReST) corpus. Then, a secondary LLM compares these LLM-derived annotations and human annotations against gold-standard labels to detect and characterize divergences. We define an SMM coherence evaluation framework for this use case and apply it to six CReST dialogues, ultimately producing: (1) a dataset of human and LLM annotations; (2) a reproducible evaluation framework for SMM coherence; and (3) an empirical assessment of LLM-based discrepancy detection. Our results reveal that, although LLMs exhibit apparent coherence on straightforward natural-language annotation tasks, they systematically err in scenarios requiring spatial reasoning or disambiguation of prosodic cues.