Probing the Lack of Stable Internal Beliefs in LLMs

作者: Yifan Luo, Kangping Xu, Yanzhen Lu, Yang Yuan, Andrew Chi-Chih Yao

分类: cs.CL, cs.AI

发布日期: 2026-03-26

备注: Accepted by NeurIPS 2025 Workshop Mexico City PersonaNLP

💡 一句话要点

探究LLM缺乏稳定内部信念：在多轮对话中保持隐式目标一致性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 隐式一致性 多轮对话 人格化建模 谜语游戏

📋 核心要点

现有LLM在模拟人类性格时，难以在多轮对话中保持行为一致性，缺乏稳定的内部信念。
论文设计谜语游戏，要求LLM秘密选择目标并回答猜测，以此考察其隐式目标一致性。
实验表明，LLM在没有明确目标提示的情况下，难以维持隐式目标，揭示了人格化LLM的局限。

📝 摘要（中文）

人格驱动的大型语言模型（LLM）需要在交互过程中保持一致的行为倾向，以模拟类似人类的性格特征，例如坚持或可靠性。然而，当前的LLM通常缺乏稳定的内部表征，无法在扩展的对话中锚定其响应。本文探讨了LLM是否可以维持“隐式一致性”，定义为在多轮交互中持续坚持一个未明确声明的目标。我们设计了一个20问风格的谜语游戏范例，其中LLM的任务是秘密选择一个目标，并用“是/否”答案回应用户的猜测。通过评估，我们发现LLM难以保持潜在的一致性：除非在上下文中明确提供其选择的目标，否则它们的隐式“目标”会在回合之间发生变化。这些发现突出了人格驱动的LLM构建中的关键局限性，并强调了需要能够随时间锚定隐式目标的机制，这是在对话系统等交互式应用中实现逼真性格建模的关键。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在多轮对话中缺乏稳定内部信念的问题，具体表现为无法维持隐式目标的一致性。现有方法在构建人格化LLM时，往往侧重于显式的人格描述，而忽略了模型在交互过程中对内在目标的持续坚持。这种缺陷导致LLM在模拟人类性格时，表现出不一致和不可靠的行为。

核心思路：论文的核心思路是通过设计一个谜语游戏，隐式地考察LLM是否能够维持一个未明确声明的目标。LLM需要秘密选择一个目标，并根据用户的猜测给出“是/否”的回答。通过分析LLM在多轮对话中的回答，可以推断其是否始终坚持最初选择的目标。这种方法避免了直接询问LLM的内部状态，而是通过观察其行为来评估其隐式一致性。

技术框架：论文构建了一个20问风格的谜语游戏框架。LLM首先被要求秘密选择一个目标（例如，一个具体的物体或概念）。然后，用户通过一系列问题来猜测LLM选择的目标，LLM需要根据其选择的目标给出“是/否”的回答。整个对话过程持续20轮。研究人员通过分析LLM的回答，判断其是否在整个对话过程中始终坚持最初选择的目标。如果LLM的回答前后矛盾，则表明其未能维持隐式一致性。

关键创新：论文的关键创新在于提出了一种新的评估方法，用于衡量LLM在多轮对话中维持隐式目标一致性的能力。与以往侧重于显式人格描述的研究不同，该方法通过观察LLM的行为来推断其内部状态。这种方法更加客观和可靠，能够更准确地反映LLM在模拟人类性格方面的真实水平。此外，该研究还揭示了当前LLM在构建人格化模型方面的局限性，为未来的研究方向提供了新的思路。

关键设计：谜语游戏的设计至关重要。问题的选择需要具有一定的区分度，以便用户能够通过一系列问题逐步缩小猜测范围。同时，问题的答案需要能够明确地反映LLM是否坚持最初选择的目标。研究人员可能使用了特定的提示工程技术，例如在提示中加入“你正在扮演一个选择秘密目标并回答问题的角色”等语句，以引导LLM更好地完成任务。具体的损失函数和网络结构没有在论文中明确提及，可能使用了标准的语言模型训练方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在没有明确目标提示的情况下，难以维持隐式目标的一致性。即使在简单的谜语游戏中，LLM的“目标”也会在回合之间发生变化。这表明当前LLM在构建人格化模型方面存在明显的局限性。研究结果强调了需要开发新的机制，以帮助LLM在多轮对话中锚定隐式目标，从而提高其行为的一致性和可靠性。

🎯 应用场景

该研究成果对构建更逼真、更可靠的人格化对话系统具有重要意义。通过提高LLM在多轮对话中维持隐式目标一致性的能力，可以使其在客户服务、虚拟助手、教育辅导等领域发挥更大的作用。此外，该研究提出的评估方法也可以用于评估其他类型的人工智能系统，例如机器人和游戏AI。

📄 摘要（原文）

Persona-driven large language models (LLMs) require consistent behavioral tendencies across interactions to simulate human-like personality traits, such as persistence or reliability. However, current LLMs often lack stable internal representations that anchor their responses over extended dialogues. This work explores whether LLMs can maintain "implicit consistency", defined as persistent adherence to an unstated goal in multi-turn interactions. We designed a 20-question-style riddle game paradigm where an LLM is tasked with secretly selecting a target and responding to users' guesses with "yes/no" answers. Through evaluations, we find that LLMs struggle to preserve latent consistency: their implicit "goals" shift across turns unless explicitly provided their selected target in context. These findings highlight critical limitations in the building of persona-driven LLMs and underscore the need for mechanisms that anchor implicit goals over time, which is a key to realistic personality modeling in interactive applications such as dialogue systems.

Probing the Lack of Stable Internal Beliefs in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理