Confidence Estimation for LLMs in Multi-turn Interactions

📄 arXiv: 2601.02179v1 📥 PDF

作者: Caiqi Zhang, Ruihan Yang, Xiaochen Zhu, Chengzu Li, Tiancheng Hu, Yijiang River Dong, Deqing Yang, Nigel Collier

分类: cs.CL

发布日期: 2026-01-05


💡 一句话要点

针对多轮交互中LLM的置信度估计问题,提出一种新的评估框架和置信度探测方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 置信度估计 大型语言模型 多轮对话 校准 单调性 人机交互 幻觉

📋 核心要点

  1. 现有LLM置信度估计研究主要集中在单轮对话,忽略了多轮交互中上下文信息对置信度的影响。
  2. 论文提出一种新的评估框架,包含逐轮校准和置信度单调性两个关键指标,并设计了新的评估数据集生成范式。
  3. 实验表明,现有置信度估计方法在多轮对话中表现不佳,论文提出的P(Sufficient)方法取得了一定的改进。

📝 摘要(中文)

置信度估计是缓解大型语言模型(LLM)幻觉现象的一个有前景的方向,但目前的研究主要集中在单轮设置中。多轮对话中,随着上下文的积累和歧义的逐步消除,模型置信度的动态变化仍然很大程度上未被探索。在多轮设置中,可靠的置信度估计对于许多下游应用至关重要,例如自主代理和人机协作系统。本文首次对多轮交互中的置信度估计进行了系统研究,建立了一个基于两个关键要求的正式评估框架:逐轮校准和置信度随信息增加的单调性。为此,我们引入了新的指标,包括长度归一化的期望校准误差(InfoECE),以及一种新的“Hinter-Guesser”范式来生成受控的评估数据集。实验表明,广泛使用的置信度技术在多轮对话中难以实现校准和单调性。我们提出P(Sufficient),一种基于logits的探测方法,它取得了相对较好的性能,但该任务仍远未解决。我们的工作为开发更可靠和值得信赖的对话代理提供了一个基础方法。

🔬 方法详解

问题定义:论文旨在解决多轮对话场景下,大型语言模型(LLM)置信度估计不准确的问题。现有方法主要针对单轮对话,无法有效捕捉多轮交互中上下文信息对置信度的动态影响。这导致LLM在多轮对话中产生幻觉,影响其可靠性和可信度。现有方法缺乏针对多轮对话的有效评估指标和数据集,难以进行系统性的研究和改进。

核心思路:论文的核心思路是建立一个针对多轮对话的置信度估计评估框架,并提出一种新的置信度探测方法。该框架基于两个关键原则:逐轮校准(per-turn calibration)和置信度单调性(monotonicity of confidence)。逐轮校准要求模型在每一轮对话中都能准确估计其置信度;置信度单调性要求随着上下文信息的增加,模型置信度应该单调递增。基于此框架,论文提出了一种基于logits的探测方法P(Sufficient),旨在更好地捕捉多轮对话中的上下文信息,从而提高置信度估计的准确性。

技术框架:论文的技术框架主要包含三个部分:1) 评估指标:引入长度归一化的期望校准误差(InfoECE)来评估逐轮校准性能;2) 数据集生成:提出一种新的“Hinter-Guesser”范式来生成受控的评估数据集,该范式模拟了多轮对话中信息逐步揭示的过程;3) 置信度探测方法:提出P(Sufficient)方法,利用logits信息来估计模型置信度。整体流程是,首先使用Hinter-Guesser范式生成评估数据集,然后使用InfoECE指标评估不同置信度估计方法在数据集上的性能,最后比较P(Sufficient)方法与其他基线方法的性能。

关键创新:论文最重要的技术创新点在于提出了针对多轮对话的置信度估计评估框架,该框架包含逐轮校准和置信度单调性两个关键指标。此外,Hinter-Guesser范式也是一个重要的创新,它提供了一种生成受控评估数据集的方法,可以更好地评估模型在多轮对话中的置信度估计能力。P(Sufficient)方法虽然在性能上有所提升,但其本质仍然是基于logits的探测方法,与现有方法相比,创新性相对较小。

关键设计:InfoECE指标通过对传统ECE指标进行长度归一化,解决了多轮对话中不同轮次长度不一致的问题。Hinter-Guesser范式通过模拟信息逐步揭示的过程,生成更贴近真实多轮对话场景的数据集。P(Sufficient)方法的具体实现细节未知,但根据描述,其核心是利用logits信息来估计模型置信度,可能涉及到对logits进行某种形式的变换或加权。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有置信度估计方法在多轮对话中表现不佳,难以实现逐轮校准和置信度单调性。论文提出的P(Sufficient)方法在InfoECE指标上取得了一定的改进,但仍远未达到理想水平。这些结果表明,多轮对话置信度估计仍然是一个具有挑战性的问题,需要进一步的研究和探索。

🎯 应用场景

该研究成果可应用于开发更可靠和值得信赖的对话代理,例如智能客服、虚拟助手和教育机器人。通过提高LLM在多轮对话中的置信度估计准确性,可以减少幻觉现象,提升用户体验,并增强人机协作的效率。此外,该研究提出的评估框架和数据集生成范式,为后续研究提供了有力的工具,有助于推动多轮对话置信度估计领域的发展。

📄 摘要(原文)

While confidence estimation is a promising direction for mitigating hallucinations in Large Language Models (LLMs), current research dominantly focuses on single-turn settings. The dynamics of model confidence in multi-turn conversations, where context accumulates and ambiguity is progressively resolved, remain largely unexplored. Reliable confidence estimation in multi-turn settings is critical for many downstream applications, such as autonomous agents and human-in-the-loop systems. This work presents the first systematic study of confidence estimation in multi-turn interactions, establishing a formal evaluation framework grounded in two key desiderata: per-turn calibration and monotonicity of confidence as more information becomes available. To facilitate this, we introduce novel metrics, including a length-normalized Expected Calibration Error (InfoECE), and a new "Hinter-Guesser" paradigm for generating controlled evaluation datasets. Our experiments reveal that widely-used confidence techniques struggle with calibration and monotonicity in multi-turn dialogues. We propose P(Sufficient), a logit-based probe that achieves comparatively better performance, although the task remains far from solved. Our work provides a foundational methodology for developing more reliable and trustworthy conversational agents.