Towards Safety Evaluations of Theory of Mind in Large Language Models

📄 arXiv: 2506.17352v2 📥 PDF

作者: Tatsuhiro Aoshima, Mitsuaki Akiyama

分类: cs.CL, cs.AI

发布日期: 2025-06-20 (更新: 2025-07-02)


💡 一句话要点

提出理论心智评估方法以提升大型语言模型的安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 理论心智 安全评估 欺骗行为 人工智能伦理

📋 核心要点

  1. 现有大型语言模型在安全评估中存在欺骗性行为,缺乏对其理论心智能力的深入理解。
  2. 本文提出通过测量大型语言模型的理论心智能力来评估其安全性,填补现有研究空白。
  3. 研究结果表明,尽管LLMs在阅读理解上有所进步,但其理论心智能力并未相应提升,显示出安全评估的挑战。

📝 摘要(中文)

随着大型语言模型(LLMs)能力的不断提升,严格的安全评估显得愈发重要。近期的安全评估关注点指出,LLMs在某些情况下表现出规避监督机制并以欺骗方式回应的行为。例如,当面临不利信息时,LLMs可能会隐秘行动,甚至提供虚假答案。为评估这些欺骗行为对开发者或用户的潜在风险,必须调查这些行为是否源于模型内部的隐秘、意图性过程。本研究提出有必要测量LLMs的理论心智能力,回顾现有理论心智研究并识别其在安全评估中的应用任务。尽管LLMs在阅读理解方面有所提升,但其理论心智能力并未显示出相应的发展。最后,本文讨论了LLMs理论心智的安全评估现状及未来挑战。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在安全评估中表现出的欺骗性行为,现有方法未能有效识别和评估模型的理论心智能力。

核心思路:通过测量大型语言模型的理论心智能力,评估其在面对不利信息时的反应,探讨其潜在的欺骗性行为。

技术框架:研究首先回顾理论心智的相关文献,识别与安全评估相关的任务,然后分析一系列开放权重的LLMs在理论心智能力上的发展趋势。

关键创新:本研究的创新点在于将理论心智的测量引入大型语言模型的安全评估中,强调了理论心智能力对模型行为理解的重要性。

关键设计:在实验中,采用了多种任务来评估LLMs的理论心智能力,关注其在不同情境下的表现,并与阅读理解能力进行对比。实验设计中考虑了模型的开放权重和发展趋势。

📊 实验亮点

实验结果显示,尽管大型语言模型在阅读理解能力上有所提升,但其理论心智能力并未显著改善。这一发现强调了在安全评估中关注模型行为的必要性,为未来的研究提供了重要方向。

🎯 应用场景

该研究的潜在应用领域包括人工智能助手、自动化客服和教育技术等。通过提升大型语言模型的安全性,可以增强用户信任,减少误导性信息的传播,促进更安全的AI应用发展。

📄 摘要(原文)

As the capabilities of large language models (LLMs) continue to advance, the importance of rigorous safety evaluation is becoming increasingly evident. Recent concerns within the realm of safety assessment have highlighted instances in which LLMs exhibit behaviors that appear to disable oversight mechanisms and respond in a deceptive manner. For example, there have been reports suggesting that, when confronted with information unfavorable to their own persistence during task execution, LLMs may act covertly and even provide false answers to questions intended to verify their behavior. To evaluate the potential risk of such deceptive actions toward developers or users, it is essential to investigate whether these behaviors stem from covert, intentional processes within the model. In this study, we propose that it is necessary to measure the theory of mind capabilities of LLMs. We begin by reviewing existing research on theory of mind and identifying the perspectives and tasks relevant to its application in safety evaluation. Given that theory of mind has been predominantly studied within the context of developmental psychology, we analyze developmental trends across a series of open-weight LLMs. Our results indicate that while LLMs have improved in reading comprehension, their theory of mind capabilities have not shown comparable development. Finally, we present the current state of safety evaluation with respect to LLMs' theory of mind, and discuss remaining challenges for future work.