A Survey of Theory of Mind in Large Language Models: Evaluations, Representations, and Safety Risks

作者: Hieu Minh "Jord" Nguyen

分类: cs.CL, cs.AI

发布日期: 2025-02-10

备注: Advancing Artificial Intelligence through Theory of Mind Workshop, AAAI 2025

💡 一句话要点

综述大型语言模型中的心理理论：评估、表征与安全风险

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理理论 社会智能 安全风险 行为评估

📋 核心要点

现有方法在评估大型语言模型（LLM）的心理理论（ToM）能力方面存在不足，缺乏统一的标准和全面的评估体系。
该综述旨在通过分析现有研究，深入理解LLM的ToM能力，并识别其潜在的安全风险，为未来的研究提供指导。
论文总结了LLM在ToM方面的评估方法、表征形式以及潜在的安全风险，并提出了未来研究方向，旨在促进LLM安全可控发展。

📝 摘要（中文）

心理理论（ToM）是将心理状态归因于他人并预测其行为的能力，这是社会智能的基础。本文综述了评估大型语言模型（LLM）中行为和表征性ToM的研究，识别了高级LLM的ToM能力带来的重要安全风险，并为有效评估和缓解这些风险提出了若干研究方向。

🔬 方法详解

问题定义：当前大型语言模型（LLM）的心理理论（ToM）能力评估缺乏统一标准和全面体系，难以准确衡量LLM是否真正具备理解他人心理状态并预测行为的能力。此外，具备高级ToM能力的LLM可能带来安全风险，例如操纵人类或进行欺骗，这些风险尚未得到充分研究。

核心思路：该综述的核心思路是对现有关于LLM中ToM的研究进行系统性梳理和分析，从评估方法、表征形式和安全风险三个方面入手，深入探讨LLM的ToM能力。通过识别现有研究的局限性，为未来的研究方向提供指导，从而促进LLM的安全可控发展。

技术框架：该综述没有提出新的技术框架，而是对现有研究进行分类和总结。主要框架包括：1) 评估LLM的ToM能力的行为测试；2) 分析LLM内部表征中是否包含ToM相关信息的表征分析；3) 识别由LLM的ToM能力带来的潜在安全风险。

关键创新：该综述的创新之处在于首次系统性地总结了LLM中ToM的研究进展，并将其与安全风险联系起来。它不仅关注LLM是否具备ToM能力，更关注这种能力可能带来的潜在危害，从而为LLM的安全研究提供了新的视角。

关键设计：该综述的关键设计在于其分类框架，它将LLM的ToM研究分为评估、表征和安全风险三个方面，从而能够全面地分析LLM的ToM能力。此外，该综述还提出了未来研究方向，例如开发更有效的ToM评估方法、研究LLM内部ToM表征的形成机制以及制定缓解ToM相关安全风险的策略。

📊 实验亮点

该综述总结了现有研究中用于评估LLM的ToM能力的各种行为测试，例如假信念任务、意外内容任务等。同时，它也分析了LLM内部表征中可能存在的ToM相关信息，例如信念、意图等。此外，该综述还强调了LLM的ToM能力可能带来的安全风险，例如操纵、欺骗等，并提出了未来研究方向。

🎯 应用场景

该研究对开发更安全、更可靠的人工智能系统具有重要意义。通过深入理解LLM的心理理论能力，可以更好地预测和控制其行为，从而避免潜在的安全风险。此外，该研究还可以应用于开发更具同理心和社交智能的AI助手，提升人机交互的质量。

📄 摘要（原文）

Theory of Mind (ToM), the ability to attribute mental states to others and predict their behaviour, is fundamental to social intelligence. In this paper, we survey studies evaluating behavioural and representational ToM in Large Language Models (LLMs), identify important safety risks from advanced LLM ToM capabilities, and suggest several research directions for effective evaluation and mitigation of these risks.