TactfulToM: Do LLMs Have the Theory of Mind Ability to Understand White Lies?
作者: Yiwei Liu, Emma Jane Pretty, Jiahao Huang, Saku Sugawara
分类: cs.CL, cs.AI
发布日期: 2025-09-21 (更新: 2025-09-24)
备注: Accepted to EMNLP 2025
💡 一句话要点
提出TactfulToM基准,评估LLM在理解善意谎言中的心理理论能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理理论 善意谎言 大型语言模型 基准数据集 社会推理
📋 核心要点
- 现有研究对LLM在心理理论推理任务上的表现进行了探索,但对需要更细致社会情境的ToM能力(如善意谎言)的研究有限。
- TactfulToM基准旨在评估LLM在真实对话中理解善意谎言并推断其背后亲社会动机的能力,特别是维护社会和谐的动机。
- 实验表明,当前最先进的模型在TactfulToM上的表现远低于人类水平,表明它们在理解善意谎言的ToM推理方面存在不足。
📝 摘要(中文)
本研究旨在评估大型语言模型(LLMs)在更细致的社会情境下的心理理论(ToM)能力,特别是理解善意谎言的能力。为此,我们提出了TactfulToM,这是一个新的英语基准,用于评估LLMs在真实对话中理解善意谎言并推断其背后亲社会动机的能力,尤其是在为了顾及他人感受和维护社会和谐时。我们的基准通过一个多人协作流程生成,其中LLMs将人工设计的种子故事扩展为对话,以维持参与者之间信息不对称,这对于真实的善意谎言至关重要。实验结果表明,TactfulToM对当前最先进的模型提出了挑战,它们的表现远低于人类水平,揭示了它们在完全理解ToM推理方面的不足,而ToM推理是真正理解善意谎言的基础。
🔬 方法详解
问题定义:现有研究对LLM的心理理论能力评估主要集中在简单的场景,缺乏对复杂社会情境下,例如善意谎言的理解能力评估。现有的方法难以衡量LLM是否真正理解了善意谎言背后的动机,以及在信息不对称的情况下如何进行推理。
核心思路:论文的核心思路是通过构建一个包含真实对话场景的基准数据集,其中包含善意谎言,并要求LLM理解这些谎言背后的亲社会动机。通过评估LLM在这些场景下的表现,可以更准确地衡量其心理理论能力。这种设计考虑了信息不对称和社交情境,更贴近现实世界的应用。
技术框架:TactfulToM的构建流程包含以下几个主要阶段:1) 人工设计种子故事,这些故事包含善意谎言的场景。2) 使用LLM将种子故事扩展为更详细的对话,以保持参与者之间的信息不对称。3) 对生成的对话进行人工审核和修改,以确保其真实性和合理性。4) 构建评估任务,要求LLM回答关于对话中人物的信念、意图和情感的问题。
关键创新:该研究的关键创新在于提出了一个专门用于评估LLM理解善意谎言能力的基准数据集TactfulToM。该数据集通过多人协作的方式生成,保证了对话的真实性和复杂性,能够更有效地评估LLM的心理理论能力。与以往的心理理论评估方法相比,TactfulToM更注重社交情境和信息不对称,更贴近现实世界的应用。
关键设计:在生成对话的过程中,使用了LLM进行故事扩展,并结合人工审核,以保证对话的质量和真实性。评估任务的设计包括多种类型的问题,例如选择题、开放式问题等,以全面评估LLM的理解能力。没有提及具体的参数设置、损失函数或网络结构,因为该论文主要关注数据集的构建和评估,而非模型的训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前最先进的LLM在TactfulToM上的表现显著低于人类水平,这表明LLM在理解善意谎言和推断其背后亲社会动机方面存在明显的不足。这一发现强调了当前LLM在心理理论能力方面的局限性,并为未来的研究提供了方向。
🎯 应用场景
该研究成果可应用于开发更具同理心和社交智能的AI系统,例如智能客服、虚拟助手和社交机器人。通过提高AI对人类情感和意图的理解能力,可以改善人机交互体验,并使AI系统更好地适应复杂的社会环境。未来的研究可以进一步探索如何利用TactfulToM来训练和提升LLM的心理理论能力。
📄 摘要(原文)
While recent studies explore Large Language Models' (LLMs) performance on Theory of Mind (ToM) reasoning tasks, research on ToM abilities that require more nuanced social context is limited, such as white lies. We introduce TactfulToM, a novel English benchmark designed to evaluate LLMs' ability to understand white lies within real-life conversations and reason about prosocial motivations behind them, particularly when they are used to spare others' feelings and maintain social harmony. Our benchmark is generated through a multi-stage human-in-the-loop pipeline where LLMs expand manually designed seed stories into conversations to maintain the information asymmetry between participants necessary for authentic white lies. We show that TactfulToM is challenging for state-of-the-art models, which perform substantially below humans, revealing shortcomings in their ability to fully comprehend the ToM reasoning that enables true understanding of white lies.