Towards Machine Theory of Mind with Large Language Model-Augmented Inverse Planning

📄 arXiv: 2507.03682v1 📥 PDF

作者: Rebekah A. Gelpí, Eric Xue, William A. Cunningham

分类: cs.AI, cs.LG

发布日期: 2025-07-04


💡 一句话要点

提出基于大语言模型增强的逆向规划,实现机器心智理论

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器心智理论 大型语言模型 逆向规划 贝叶斯推理 心理状态预测

📋 核心要点

  1. 现有贝叶斯逆向规划模型在复杂场景下扩展性不足,而LLM方法在推理任务中存在脆弱性。
  2. 该方法结合LLM生成假设和似然函数,并使用贝叶斯逆向规划模型计算心理状态后验概率。
  3. 实验表明,该方法在ToM任务中表现优于单独使用LLM或思维链提示的模型,尤其是在小型LLM上。

📝 摘要(中文)

本文提出了一种混合的机器心智理论(ToM)方法,该方法利用大型语言模型(LLM)作为生成假设和似然函数的机制,并结合贝叶斯逆向规划模型,根据智能体的行为计算其可能心理状态的后验概率。贝叶斯逆向规划模型能够准确预测人类在各种ToM任务中的推理,但其将这些预测扩展到具有大量可能假设和行为的场景的能力受到限制。相反,基于LLM的方法最近在解决ToM基准测试中表现出前景,但即使通过了结构相同的版本,也可能在推理任务中表现出脆弱性和失败。通过结合这两种方法,该方法利用了每个组件的优势,在受先前逆向规划模型启发的任务中与最优结果紧密匹配,并且相对于单独使用LLM或使用思维链提示的模型,提高了性能,即使是通常在ToM任务中表现不佳的较小型LLM也是如此。我们还展示了该模型在开放式任务中预测心理状态的潜力,为ToM模型的未来发展和社交智能生成代理的创建提供了有希望的方向。

🔬 方法详解

问题定义:论文旨在解决机器心智理论(ToM)中,如何让机器准确理解和预测智能体的心理状态的问题。现有方法,如贝叶斯逆向规划模型,在处理大规模、复杂场景时计算成本高昂,扩展性差。而直接使用大型语言模型(LLM)虽然具备一定的ToM能力,但在推理任务中容易出现错误,缺乏鲁棒性。

核心思路:论文的核心思路是将LLM和贝叶斯逆向规划模型结合起来,取长补短。利用LLM强大的生成能力,快速生成可能的假设和似然函数,降低贝叶斯逆向规划模型的搜索空间。同时,利用贝叶斯逆向规划模型的严谨推理能力,对LLM生成的假设进行验证和筛选,提高预测的准确性和可靠性。这样设计可以充分发挥两种方法的优势,克服各自的局限性。

技术框架:整体框架包含以下几个主要模块:1) LLM假设生成模块:根据场景描述和智能体的行为,LLM生成一系列可能的心理状态假设,以及每个假设下行为的似然函数。2) 贝叶斯逆向规划模块:该模块接收LLM生成的假设和似然函数,并结合先验知识,计算每个假设的后验概率。3) 心理状态预测模块:根据后验概率分布,选择最可能的心理状态作为预测结果。整个流程是先由LLM进行快速假设生成,再由贝叶斯逆向规划模型进行精确推理和验证。

关键创新:最重要的技术创新点在于将LLM的生成能力与贝叶斯逆向规划模型的推理能力相结合。与传统方法相比,该方法不再依赖人工设计的假设空间和似然函数,而是通过LLM自动生成,大大提高了模型的灵活性和适应性。与直接使用LLM的方法相比,该方法引入了贝叶斯逆向规划模型进行验证,提高了预测的准确性和鲁棒性。

关键设计:论文中关键的设计包括:1) LLM的选择和微调:选择合适的LLM,并针对ToM任务进行微调,提高其生成假设和似然函数的质量。2) 似然函数的构建:设计合理的似然函数,反映智能体的行为与其心理状态之间的关系。3) 先验知识的引入:在贝叶斯逆向规划模型中引入先验知识,例如智能体的常见目标和偏好,提高预测的准确性。4) 后验概率的计算:采用高效的算法计算后验概率,降低计算成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在ToM任务中取得了显著的性能提升。在受先前逆向规划模型启发的任务中,该方法与最优结果紧密匹配,并且相对于单独使用LLM或使用思维链提示的模型,提高了性能。即使是通常在ToM任务中表现不佳的较小型LLM,在该方法的加持下也表现出良好的性能。

🎯 应用场景

该研究成果可应用于开发更智能、更具社交能力的AI系统,例如:社交机器人、智能助手、游戏AI等。这些系统能够更好地理解人类的意图和情感,从而进行更自然、更有效的交互。此外,该方法还可以用于心理学研究,帮助研究人员更好地理解人类的心智理论。

📄 摘要(原文)

We propose a hybrid approach to machine Theory of Mind (ToM) that uses large language models (LLMs) as a mechanism for generating hypotheses and likelihood functions with a Bayesian inverse planning model that computes posterior probabilities for an agent's likely mental states given its actions. Bayesian inverse planning models can accurately predict human reasoning on a variety of ToM tasks, but these models are constrained in their ability to scale these predictions to scenarios with a large number of possible hypotheses and actions. Conversely, LLM-based approaches have recently demonstrated promise in solving ToM benchmarks, but can exhibit brittleness and failures on reasoning tasks even when they pass otherwise structurally identical versions. By combining these two methods, this approach leverages the strengths of each component, closely matching optimal results on a task inspired by prior inverse planning models and improving performance relative to models that utilize LLMs alone or with chain-of-thought prompting, even with smaller LLMs that typically perform poorly on ToM tasks. We also exhibit the model's potential to predict mental states on open-ended tasks, offering a promising direction for future development of ToM models and the creation of socially intelligent generative agents.