Confidence Should Be Calibrated More Than One Turn Deep

作者: Zhaohan Zhang, Chengzhengxu Li, Xiaoming Liu, Chao Shen, Ziquan Liu, Ioannis Patras

分类: cs.CL

发布日期: 2026-04-07

💡 一句话要点

提出MTCal和ConfChat，解决LLM多轮对话中置信度校准退化问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 置信度校准 大型语言模型 预期校准误差 解码策略

📋 核心要点

现有LLM置信度校准研究主要集中在单轮对话，忽略了多轮对话中用户反馈对模型置信度的影响，导致校准性能下降。
论文提出MTCal方法，通过最小化多轮对话中的预期校准误差（ECE@T）来优化模型置信度，并设计ConfChat解码策略提升事实性和一致性。
实验表明，MTCal在多轮校准任务上表现出色，ConfChat能够保持甚至提升模型在多轮交互中的性能。

📝 摘要（中文）

大型语言模型（LLM）越来越多地应用于金融、医疗保健和教育等高风险领域，在这些领域中，与用户进行可靠的多轮交互至关重要。然而，现有的关于置信度估计和校准（构建可信LLM系统的主要方法）的研究主要集中在单轮设置中，忽略了多轮对话的风险和潜力。本文提出了多轮校准任务，将校准从静态属性重新定义为可靠多轮对话中的动态挑战，需要在每个轮次根据对话历史校准模型置信度。我们首先揭示了这种设置的风险：使用turn T的预期校准误差（ECE@T），一种跟踪轮次校准动态的新指标，我们表明用户反馈（例如，说服）会降低多轮校准效果。为了解决这个问题，我们提出了MTCal，它通过替代校准目标最小化ECE@T，并进一步利用ConfChat中校准的置信度，这是一种解码策略，可以提高多轮交互中模型响应的事实性和一致性。大量的实验表明，MT-Cal在多轮校准中取得了出色的和一致的性能，并且ConfChat保留甚至增强了模型在多轮交互中的性能。我们的结果表明，多轮校准是扩展LLM校准以实现安全、可靠和实际应用的一个缺失环节。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在多轮对话中置信度校准退化的问题。现有方法主要关注单轮问答，忽略了对话历史和用户反馈对模型置信度的动态影响。在多轮对话中，用户反馈可能会误导模型，导致模型置信度与实际准确率不匹配，从而降低对话的可靠性。

核心思路：论文的核心思路是针对多轮对话的特点，动态地校准模型在每一轮的置信度。通过引入多轮校准任务，将校准问题从静态的单轮评估转变为动态的多轮优化。核心在于利用对话历史信息，并考虑用户反馈的影响，从而更准确地评估和校准模型置信度。

技术框架：论文提出了MTCal和ConfChat两个主要模块。MTCal是一个多轮校准方法，旨在最小化多轮对话中的预期校准误差（ECE@T）。ConfChat是一个解码策略，利用MTCal校准后的置信度来提高模型在多轮交互中的事实性和一致性。整体流程是：首先使用MTCal校准模型，然后使用校准后的模型和ConfChat解码策略进行多轮对话。

关键创新：论文的关键创新在于：1) 提出了多轮校准任务，将校准问题扩展到多轮对话场景；2) 提出了ECE@T指标，用于评估多轮对话中的校准性能；3) 提出了MTCal方法，通过替代校准目标最小化ECE@T；4) 提出了ConfChat解码策略，利用校准后的置信度提高对话质量。与现有方法的本质区别在于，论文考虑了对话历史和用户反馈对模型置信度的动态影响，并针对多轮对话进行了优化。

关键设计：MTCal的关键设计在于替代校准目标的设计，该目标旨在最小化ECE@T。具体来说，论文使用了一种基于交叉熵损失的替代目标，该目标鼓励模型输出的置信度与实际准确率相匹配。ConfChat的关键设计在于利用校准后的置信度来调整解码过程。具体来说，ConfChat使用校准后的置信度来对不同的候选token进行加权，从而选择更可靠的token。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MTCal在多轮校准任务上取得了显著的性能提升，能够有效降低ECE@T指标。与现有单轮校准方法相比，MTCal在多轮对话中表现出更强的鲁棒性和适应性。此外，ConfChat解码策略能够进一步提高模型在多轮交互中的事实性和一致性，在某些任务上甚至超过了基线模型。

🎯 应用场景

该研究成果可应用于各种需要可靠多轮对话的场景，例如智能客服、在线教育、医疗诊断等。通过提高LLM在多轮对话中的置信度校准水平，可以增强系统的可靠性和安全性，减少错误信息的传播，提升用户体验，并最终促进LLM在实际应用中的广泛采用。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly applied in high-stakes domains such as finance, healthcare, and education, where reliable multi-turn interactions with users are essential. However, existing work on confidence estimation and calibration, a major approach to building trustworthy LLM systems, largely focuses on single-turn settings and overlooks the risks and potential of multi-turn conversations. In this work, we introduce the task of multi-turn calibration to reframe calibration from a static property into a dynamic challenge central to reliable multi-turn conversation, where calibrating model confidence at each turn conditioned on the conversation history is required. We first reveal the risks of this setting: using Expected Calibration Error at turn T (ECE@T), a new metric that tracks calibration dynamics over turns, we show that user feedback (e.g., persuasion) can degrade multi-turn calibration. To address this, we propose MTCal, which minimises ECE@T via a surrogate calibration target, and further leverage calibrated confidence in ConfChat, a decoding strategy that improves both factuality and consistency of the model response in multi-turn interactions. Extensive experiments demonstrate that MT-Cal achieves outstanding and consistent performance in multi-turn calibration, and ConfChat preserves and even enhances model performance in multi-turn interactions. Our results mark multi-turn calibration as one missing link for scaling LLM calibration toward safe, reliable, and real-world use.

Confidence Should Be Calibrated More Than One Turn Deep

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理