Effects of Theory of Mind and Prosocial Beliefs on Steering Human-Aligned Behaviors of LLMs in Ultimatum Games

作者: Neemesh Yadav, Palakorn Achananuparp, Jing Jiang, Ee-Peng Lim

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-05-30

备注: 17 pages, 1 figure, 6 tables

🔗 代码/项目: GITHUB

💡 一句话要点

在最后通牒博弈中，利用心智理论和亲社会信念引导LLM实现人类对齐行为

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心智理论 最后通牒博弈 人机交互 社会推理 行为对齐 亲社会信念

📋 核心要点

现有LLM在模拟人类社会行为方面存在不足，尤其是在需要理解他人意图和信念的场景下。
本研究通过在最后通牒博弈中引入心智理论(ToM)推理，使LLM智能体更好地理解和预测人类行为。
实验结果表明，结合ToM推理的LLM在行为对齐、决策一致性和谈判结果方面均优于传统推理模型。

📝 摘要（中文）

大型语言模型(LLM)在模拟人类行为和执行心智理论(ToM)推理方面展现出潜力，心智理论是复杂社会互动中的一项关键技能。本研究以最后通牒博弈为受控环境，探讨了ToM推理在谈判任务中使智能体行为与人类规范对齐的作用。我们使用不同的亲社会信念（包括贪婪型、公平型和无私型）和推理方法（如思维链(CoT)以及不同ToM水平）初始化LLM智能体，并检验了它们在不同LLM（包括o3-mini和DeepSeek-R1 Distilled Qwen 32B等推理模型）中的决策过程。来自2700次模拟的结果表明，ToM推理增强了行为对齐、决策一致性和谈判结果。与之前的研究结果一致，推理模型与具有ToM推理的模型相比，能力有限，博弈收益在不同ToM推理顺序中扮演着不同的角色。我们的发现有助于理解ToM在增强人机交互和合作决策中的作用。实验代码可在https://github.com/Stealth-py/UltimatumToM 找到。

🔬 方法详解

问题定义：论文旨在解决如何使大型语言模型（LLM）在谈判等社会互动场景中，更好地与人类行为对齐的问题。现有方法，特别是依赖于简单推理的LLM，在理解人类意图、信念和情感方面存在不足，导致其决策与人类规范存在偏差。最后通牒博弈提供了一个受控的环境来研究这一问题，因为该博弈涉及公平、利他等复杂的社会因素。

核心思路：论文的核心思路是将心智理论（Theory of Mind, ToM）融入到LLM的决策过程中。ToM是一种理解他人心理状态（例如信念、意图、欲望）的能力，这对于预测和响应他人的行为至关重要。通过赋予LLM进行ToM推理的能力，使其能够更好地理解博弈对手的心理状态，从而做出更符合人类规范的决策。

技术框架：整体框架包括以下几个主要组成部分：1) LLM智能体初始化：使用不同的亲社会信念（贪婪型、公平型、无私型）初始化LLM智能体。2) ToM推理模块：该模块负责模拟智能体对对手心理状态的推理，包括不同层级的ToM推理。3) 决策模块：基于ToM推理的结果和自身的亲社会信念，智能体做出接受或拒绝提议的决策。4) 模拟环境：最后通牒博弈环境，用于模拟智能体之间的互动和评估其决策结果。实验中使用了多种LLM，包括o3-mini和DeepSeek-R1 Distilled Qwen 32B等。

关键创新：论文的关键创新在于将心智理论（ToM）显式地引入到LLM的决策过程中，使其能够进行更深入的社会推理。与传统的基于规则或简单推理的智能体相比，具有ToM能力的LLM能够更好地理解人类的心理状态，从而做出更符合人类规范的决策。此外，论文还研究了不同ToM层级对决策的影响，以及ToM与亲社会信念之间的相互作用。

关键设计：论文的关键设计包括：1) ToM层级：实验中使用了不同层级的ToM推理，例如0阶ToM（不考虑对手心理状态）、1阶ToM（考虑对手的信念）和2阶ToM（考虑对手对自己的信念的信念）。2) 亲社会信念：智能体被赋予不同的亲社会信念，包括贪婪型、公平型和无私型，以模拟不同的人类行为模式。3) 思维链（Chain-of-Thought, CoT）：使用CoT方法来增强LLM的推理能力，使其能够更清晰地表达其推理过程。4) 评估指标：使用行为对齐、决策一致性和谈判结果等指标来评估智能体的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，具有ToM推理能力的LLM在最后通牒博弈中表现出更符合人类规范的行为。具体来说，ToM推理增强了行为对齐（与人类行为模式的相似度）、决策一致性（在不同情境下做出相似决策的能力）和谈判结果（例如，获得更高的收益）。与没有ToM推理的LLM相比，具有ToM推理的LLM能够更好地理解对手的心理状态，从而做出更明智的决策。

🎯 应用场景

该研究成果可应用于开发更智能、更人性化的AI系统，例如在谈判、客户服务、医疗保健等领域。通过赋予AI系统心智理论能力，使其能够更好地理解人类的需求和意图，从而提供更有效的服务。此外，该研究还有助于理解人类社会行为的本质，为社会科学研究提供新的视角。

📄 摘要（原文）

Large Language Models (LLMs) have shown potential in simulating human behaviors and performing theory-of-mind (ToM) reasoning, a crucial skill for complex social interactions. In this study, we investigate the role of ToM reasoning in aligning agentic behaviors with human norms in negotiation tasks, using the ultimatum game as a controlled environment. We initialized LLM agents with different prosocial beliefs (including Greedy, Fair, and Selfless) and reasoning methods like chain-of-thought (CoT) and varying ToM levels, and examined their decision-making processes across diverse LLMs, including reasoning models like o3-mini and DeepSeek-R1 Distilled Qwen 32B. Results from 2,700 simulations indicated that ToM reasoning enhances behavior alignment, decision-making consistency, and negotiation outcomes. Consistent with previous findings, reasoning models exhibit limited capability compared to models with ToM reasoning, different roles of the game benefits with different orders of ToM reasoning. Our findings contribute to the understanding of ToM's role in enhancing human-AI interaction and cooperative decision-making. The code used for our experiments can be found at https://github.com/Stealth-py/UltimatumToM.

Effects of Theory of Mind and Prosocial Beliefs on Steering Human-Aligned Behaviors of LLMs in Ultimatum Games

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理