Confidence Should Be Calibrated More Than One Turn Deep

📄 arXiv: 2604.05397v1 📥 PDF

作者: Zhaohan Zhang, Chengzhengxu Li, Xiaoming Liu, Chao Shen, Ziquan Liu, Ioannis Patras

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出MTCal和ConfChat,解决LLM多轮对话中置信度校准退化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 置信度校准 大型语言模型 预期校准误差 解码策略

📋 核心要点

  1. 现有LLM置信度校准研究主要集中在单轮对话,忽略了多轮对话中用户反馈对模型置信度的影响,导致校准性能下降。
  2. 论文提出MTCal方法,通过最小化多轮对话中的预期校准误差(ECE@T)来优化模型置信度,并设计ConfChat解码策略提升事实性和一致性。
  3. 实验表明,MTCal在多轮校准任务上表现出色,ConfChat能够保持甚至提升模型在多轮交互中的性能。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于金融、医疗保健和教育等高风险领域,在这些领域中,与用户进行可靠的多轮交互至关重要。然而,现有的关于置信度估计和校准(构建可信LLM系统的主要方法)的研究主要集中在单轮设置中,忽略了多轮对话的风险和潜力。本文提出了多轮校准任务,将校准从静态属性重新定义为可靠多轮对话中的动态挑战,需要在每个轮次根据对话历史校准模型置信度。我们首先揭示了这种设置的风险:使用turn T的预期校准误差(ECE@T),一种跟踪轮次校准动态的新指标,我们表明用户反馈(例如,说服)会降低多轮校准效果。为了解决这个问题,我们提出了MTCal,它通过替代校准目标最小化ECE@T,并进一步利用ConfChat中校准的置信度,这是一种解码策略,可以提高多轮交互中模型响应的事实性和一致性。大量的实验表明,MT-Cal在多轮校准中取得了出色的和一致的性能,并且ConfChat保留甚至增强了模型在多轮交互中的性能。我们的结果表明,多轮校准是扩展LLM校准以实现安全、可靠和实际应用的一个缺失环节。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多轮对话中置信度校准退化的问题。现有方法主要关注单轮问答,忽略了对话历史和用户反馈对模型置信度的动态影响。在多轮对话中,用户反馈可能会误导模型,导致模型置信度与实际准确率不匹配,从而降低对话的可靠性。

核心思路:论文的核心思路是针对多轮对话的特点,动态地校准模型在每一轮的置信度。通过引入多轮校准任务,将校准问题从静态的单轮评估转变为动态的多轮优化。核心在于利用对话历史信息,并考虑用户反馈的影响,从而更准确地评估和校准模型置信度。

技术框架:论文提出了MTCal和ConfChat两个主要模块。MTCal是一个多轮校准方法,旨在最小化多轮对话中的预期校准误差(ECE@T)。ConfChat是一个解码策略,利用MTCal校准后的置信度来提高模型在多轮交互中的事实性和一致性。整体流程是:首先使用MTCal校准模型,然后使用校准后的模型和ConfChat解码策略进行多轮对话。

关键创新:论文的关键创新在于:1) 提出了多轮校准任务,将校准问题扩展到多轮对话场景;2) 提出了ECE@T指标,用于评估多轮对话中的校准性能;3) 提出了MTCal方法,通过替代校准目标最小化ECE@T;4) 提出了ConfChat解码策略,利用校准后的置信度提高对话质量。与现有方法的本质区别在于,论文考虑了对话历史和用户反馈对模型置信度的动态影响,并针对多轮对话进行了优化。

关键设计:MTCal的关键设计在于替代校准目标的设计,该目标旨在最小化ECE@T。具体来说,论文使用了一种基于交叉熵损失的替代目标,该目标鼓励模型输出的置信度与实际准确率相匹配。ConfChat的关键设计在于利用校准后的置信度来调整解码过程。具体来说,ConfChat使用校准后的置信度来对不同的候选token进行加权,从而选择更可靠的token。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MTCal在多轮校准任务上取得了显著的性能提升,能够有效降低ECE@T指标。与现有单轮校准方法相比,MTCal在多轮对话中表现出更强的鲁棒性和适应性。此外,ConfChat解码策略能够进一步提高模型在多轮交互中的事实性和一致性,在某些任务上甚至超过了基线模型。

🎯 应用场景

该研究成果可应用于各种需要可靠多轮对话的场景,例如智能客服、在线教育、医疗诊断等。通过提高LLM在多轮对话中的置信度校准水平,可以增强系统的可靠性和安全性,减少错误信息的传播,提升用户体验,并最终促进LLM在实际应用中的广泛采用。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly applied in high-stakes domains such as finance, healthcare, and education, where reliable multi-turn interactions with users are essential. However, existing work on confidence estimation and calibration, a major approach to building trustworthy LLM systems, largely focuses on single-turn settings and overlooks the risks and potential of multi-turn conversations. In this work, we introduce the task of multi-turn calibration to reframe calibration from a static property into a dynamic challenge central to reliable multi-turn conversation, where calibrating model confidence at each turn conditioned on the conversation history is required. We first reveal the risks of this setting: using Expected Calibration Error at turn T (ECE@T), a new metric that tracks calibration dynamics over turns, we show that user feedback (e.g., persuasion) can degrade multi-turn calibration. To address this, we propose MTCal, which minimises ECE@T via a surrogate calibration target, and further leverage calibrated confidence in ConfChat, a decoding strategy that improves both factuality and consistency of the model response in multi-turn interactions. Extensive experiments demonstrate that MT-Cal achieves outstanding and consistent performance in multi-turn calibration, and ConfChat preserves and even enhances model performance in multi-turn interactions. Our results mark multi-turn calibration as one missing link for scaling LLM calibration toward safe, reliable, and real-world use.