DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories
作者: Neemesh Yadav, Palakorn Achananuparp, Jing Jiang, Ee-Peng Lim
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-22
备注: Submitted to KDD 2026 Datasets and Benchmarks Track
🔗 代码/项目: GITHUB
💡 一句话要点
提出DialToM基准测试,用于评估LLM在对话轨迹预测中的心智理论能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心智理论 大型语言模型 对话系统 基准测试 推理能力
📋 核心要点
- 现有方法难以区分LLM的心智理论能力是源于真正的推理还是虚假相关性。
- 提出DialToM基准,通过多项选择题评估LLM在对话中预测心理状态和对话轨迹的能力。
- 实验表明,LLM擅长识别心理状态,但难以利用这些状态来预测对话轨迹,存在推理不对称性。
📝 摘要(中文)
大型语言模型(LLMs)已被证明具有心智理论(ToM)能力。然而,尚不清楚这源于强大的推理能力还是虚假的相关性。我们引入DialToM,这是一个通过多项选择框架,使用自然人对话构建的人工验证基准。我们不仅评估心理状态预测(字面ToM),还通过前瞻性诊断预测来评估这些状态的功能效用(功能ToM),即探测模型是否能够仅从心理状态概况中识别出与状态一致的对话轨迹。我们的结果揭示了显著的推理不对称性:虽然LLM擅长识别心理状态,但大多数模型(Gemini 3 Pro除外)未能利用这种理解来预测社会轨迹。此外,我们发现人类和LLM生成的推论之间只有微弱的语义相似性。为了方便重现,DialToM数据集和评估代码已在https://github.com/Stealth-py/DialToM上公开。
🔬 方法详解
问题定义:论文旨在解决如何更可靠地评估大型语言模型(LLMs)的心智理论(ToM)能力,特别是区分其能力是源于强大的推理还是仅仅是学习到了虚假的相关性。现有方法缺乏一个专门为此设计的、高质量的人工验证基准,难以准确评估LLM在对话场景中理解和利用心理状态进行预测的能力。
核心思路:论文的核心思路是构建一个名为DialToM的基准测试,该基准基于自然的人类对话,并采用多项选择框架。通过这种方式,可以同时评估LLM对心理状态的识别(字面ToM)以及利用这些状态预测后续对话轨迹的能力(功能ToM)。这种双重评估可以更全面地了解LLM的心智理论能力。
技术框架:DialToM基准测试包含以下几个关键组成部分:1) 从自然人对话中收集数据;2) 构建多项选择题,包括心理状态预测和对话轨迹预测;3) 设计评估指标,用于衡量LLM在字面ToM和功能ToM方面的表现。整体流程是首先让LLM预测对话参与者的心理状态,然后基于预测的心理状态,让LLM选择最有可能发生的后续对话轨迹。
关键创新:论文的关键创新在于提出了一个专门用于评估LLM心智理论能力的基准测试,该基准不仅关注心理状态的识别,还关注心理状态在预测后续行为中的应用。这种双重评估方式能够更准确地反映LLM的心智理论能力。此外,DialToM基准是人工验证的,可以减少数据偏差和噪声的影响。
关键设计:DialToM基准测试的关键设计包括:1) 使用自然的人类对话数据,以保证数据的真实性和多样性;2) 采用多项选择题,以方便评估和比较不同LLM的表现;3) 设计了专门的评估指标,用于衡量LLM在字面ToM和功能ToM方面的表现。具体参数设置和损失函数等技术细节在论文中未详细描述,属于数据集构建和评估流程的一部分。
🖼️ 关键图片
📊 实验亮点
实验结果表明,虽然LLM在识别心理状态方面表现出色,但在利用这些状态预测对话轨迹方面表现不佳,揭示了LLM在心智理论能力上的推理不对称性。只有Gemini 3 Pro模型在功能ToM方面表现出一定的能力。此外,研究发现人类和LLM生成的推论之间只有微弱的语义相似性,表明LLM的推理方式与人类存在显著差异。
🎯 应用场景
该研究成果可应用于开发更具同理心和社交智能的对话系统,例如智能客服、虚拟助手和社交机器人。通过提高LLM的心智理论能力,可以使其更好地理解人类的需求和意图,从而提供更个性化和有效的服务。此外,该基准测试还可以用于评估和改进LLM的推理能力和常识知识。
📄 摘要(原文)
Large Language Models (LLMs) have been shown to possess Theory of Mind (ToM) abilities. However, it remains unclear whether this stems from robust reasoning or spurious correlations. We introduce DialToM, a human-verified benchmark built from natural human dialogue using a multiple-choice framework. We evaluate not only mental state prediction (Literal ToM) but also the functional utility of these states (Functional ToM) through Prospective Diagnostic Forecasting -- probing whether models can identify state-consistent dialogue trajectories solely from mental-state profiles. Our results reveal a significant reasoning asymmetry: while LLMs excel at identifying mental states, most (except for Gemini 3 Pro) fail to leverage this understanding to forecast social trajectories. Additionally, we find only weak semantic similarities between human and LLM-generated inferences. To facilitate reproducibility, the DialToM dataset and evaluation code are publicly available at https://github.com/Stealth-py/DialToM.