Learning Dynamic Belief Graphs for Theory-of-mind Reasoning

📄 arXiv: 2603.20170v1 📥 PDF

作者: Ruxiao Chen, Xilei Zhao, Thomas J. Cova, Frank A. Drews, Susu Xu

分类: cs.AI

发布日期: 2026-03-20


💡 一句话要点

提出动态信念图模型,增强LLM在复杂环境中基于心理理论的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理理论 动态信念图 大型语言模型 认知推理 灾难响应

📋 核心要点

  1. 现有方法在利用LLM进行心理理论推理时,通常将信念视为静态和独立的,导致心理模型随时间推移不连贯,动态环境下的推理能力较弱。
  2. 本文提出一种动态信念图模型,联合推断潜在信念,学习其时变依赖关系,并将信念演化与信息寻求和决策联系起来,从而实现更连贯的心理模型。
  3. 实验结果表明,该模型在灾难疏散数据集上显著提高了行动预测的准确性,并能恢复与人类推理一致的可解释的信念轨迹。

📝 摘要(中文)

本文提出了一种基于大型语言模型(LLM)的心理理论(ToM)推理的结构化认知轨迹模型,该模型将心理状态表示为动态信念图。该模型旨在推断人们在不确定性下(尤其是在灾难响应、急诊医学和人机协同等高风险环境中)的隐式、演变的信念如何影响他们的行为。该模型具有以下贡献:(i)一种从文本化的概率陈述到一致的概率图模型更新的新颖投影方法;(ii)一种基于能量的因子图表示信念之间的相互依赖关系;(iii)一个基于ELBO的目标函数,用于捕获信念积累和延迟决策。在多个真实世界的灾难疏散数据集上的实验表明,该模型显著提高了行动预测的准确性,并恢复了与人类推理一致的可解释的信念轨迹,为在高度不确定性环境中增强LLM的ToM能力提供了一个有原则的模块。

🔬 方法详解

问题定义:现有基于LLM的心理理论推理方法,通常将个体的信念视为静态且相互独立的,无法捕捉信念随时间动态变化以及相互依赖的特性。这导致在动态环境中,LLM难以构建连贯的心理模型,从而影响其推理能力,尤其是在高风险场景下,如灾难响应等。

核心思路:本文的核心思路是将个体的心理状态表示为一个动态信念图,其中节点代表个体的信念,边代表信念之间的依赖关系。通过学习信念的时变依赖关系,并将其与个体的行动和信息寻求行为联系起来,从而构建一个更准确、更连贯的心理模型。这种动态建模方法能够更好地捕捉个体信念的演化过程,提高LLM在复杂环境中的推理能力。

技术框架:该模型包含以下主要模块:1) 文本到概率图的投影模块:将文本化的概率陈述转换为一致的概率图模型更新。2) 基于能量的因子图表示模块:使用能量函数来表示信念之间的相互依赖关系。3) 基于ELBO的目标函数:设计一个基于证据下界(ELBO)的目标函数,用于捕获信念积累和延迟决策。整体流程是,首先从文本输入中提取个体的信念,然后使用投影模块将其转换为概率图的更新。接着,使用因子图表示信念之间的依赖关系,并使用ELBO目标函数进行训练,最终得到动态信念图。

关键创新:该模型最重要的技术创新点在于动态信念图的表示方法。与现有方法将信念视为静态和独立不同,该模型能够学习信念的时变依赖关系,并将其与个体的行动和信息寻求行为联系起来。这种动态建模方法能够更好地捕捉个体信念的演化过程,从而提高LLM在复杂环境中的推理能力。此外,从文本到概率图的投影方法以及基于能量的因子图表示也是重要的创新点。

关键设计:该模型使用能量函数来表示信念之间的依赖关系,能量函数的设计需要考虑信念之间的语义关系和逻辑关系。ELBO目标函数的设计需要平衡信念的准确性和模型的复杂度。具体来说,ELBO包含重构损失和KL散度两项,重构损失用于保证信念的准确性,KL散度用于约束模型的复杂度。此外,模型还使用了循环神经网络(RNN)来建模信念的时序演化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在多个真实世界的灾难疏散数据集上显著提高了行动预测的准确性。具体来说,该模型在行动预测任务上优于现有的基线方法,并且能够恢复与人类推理一致的可解释的信念轨迹。这些结果表明,该模型能够有效地捕捉个体信念的演化过程,从而提高LLM在复杂环境中的推理能力。

🎯 应用场景

该研究成果可应用于多种领域,例如灾难响应、急诊医学和人机协同等。在灾难响应中,该模型可以帮助理解受灾人员的心理状态,从而制定更有效的救援方案。在急诊医学中,该模型可以帮助医生理解患者的病情,从而做出更准确的诊断。在人机协同中,该模型可以帮助机器人理解人类的意图,从而实现更自然的人机交互。该研究的潜在价值在于提高LLM在复杂环境中的推理能力,从而更好地服务于人类。

📄 摘要(原文)

Theory of Mind (ToM) reasoning with Large Language Models (LLMs) requires inferring how people's implicit, evolving beliefs shape what they seek and how they act under uncertainty -- especially in high-stakes settings such as disaster response, emergency medicine, and human-in-the-loop autonomy. Prior approaches either prompt LLMs directly or use latent-state models that treat beliefs as static and independent, often producing incoherent mental models over time and weak reasoning in dynamic contexts. We introduce a structured cognitive trajectory model for LLM-based ToM that represents mental state as a dynamic belief graph, jointly inferring latent beliefs, learning their time-varying dependencies, and linking belief evolution to information seeking and decisions. Our model contributes (i) a novel projection from textualized probabilistic statements to consistent probabilistic graphical model updates, (ii) an energy-based factor graph representation of belief interdependencies, and (iii) an ELBO-based objective that captures belief accumulation and delayed decisions. Across multiple real-world disaster evacuation datasets, our model significantly improves action prediction and recovers interpretable belief trajectories consistent with human reasoning, providing a principled module for augmenting LLMs with ToM in high-uncertainty environment. https://anonymous.4open.science/r/ICML_submission-6373/