CaliDist: Calibrating Large Language Models via Behavioral Robustness to Distraction

📄 arXiv: 2606.05799v1 📥 PDF

作者: Mohammad Anas Jawad, Cornelia Caragea

分类: cs.LG, cs.CL

发布日期: 2026-06-04


💡 一句话要点

提出CaliDist以解决大语言模型的行为鲁棒性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 行为鲁棒性 模型校准 自然语言处理 信任度评估

📋 核心要点

  1. 现有的校准方法未能充分考虑模型在认知压力下的行为鲁棒性,导致信任度评估不准确。
  2. CaliDist通过测量模型对语义干扰的敏感性,动态调整模型的初始置信度,从而提高校准效果。
  3. 在七个自然语言理解基准上,CaliDist将期望校准误差从23%降低到7%,相对提升幅度达到70%。

📝 摘要(中文)

现有的大语言模型(LLMs)校准方法常常忽视了信任度的一个关键维度:模型对无关或误导信息的行为鲁棒性。本文提出了一种新的后处理校准方法CaliDist,直接测量并惩罚模型对干扰的敏感性。CaliDist量化了在输入提示被语义干扰项扰动时,LLM的预测和不确定性如何变化。通过对七个自然语言理解分类基准的广泛实验,CaliDist在与六种不同LLM的比较中,始终实现了比强基线更低的期望校准误差(ECE)和Brier分数。我们的研究表明,行为稳定性是校准的强有力信号。

🔬 方法详解

问题定义:本文旨在解决现有大语言模型校准方法未能考虑模型在面对无关信息时的行为鲁棒性的问题。这种忽视可能导致模型信任度的评估不准确,影响其在实际应用中的可靠性。

核心思路:CaliDist的核心思路是通过直接测量模型对语义干扰的敏感性,来调整模型的置信度。通过量化模型在输入提示被扰动时的预测和不确定性变化,CaliDist能够有效反映模型的稳定性。

技术框架:CaliDist的整体架构包括输入扰动模块、稳定性评估模块和置信度调整模块。首先,输入提示被添加语义干扰项,然后评估模型在此情况下的预测变化,最后根据稳定性信号调整模型的初始置信度。

关键创新:CaliDist的主要创新在于将行为稳定性作为校准的核心信号,这与传统方法侧重于模型输出的绝对置信度不同。通过这种方式,CaliDist能够更准确地反映模型在复杂环境下的表现。

关键设计:在设计上,CaliDist采用了特定的损失函数来惩罚模型对干扰的敏感性,并通过实验确定了最佳的扰动强度和评估指标,以确保校准效果的最大化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CaliDist在七个自然语言理解基准上的实验结果显示,期望校准误差(ECE)从23%降低到7%,实现了70%的相对提升。此外,CaliDist在Brier分数上也表现出显著的优势,证明了其在模型校准中的有效性。

🎯 应用场景

CaliDist的研究成果具有广泛的应用潜力,尤其是在需要高信任度的自然语言处理任务中,如医疗文本分析、法律文书解读和自动客服系统等。通过提高模型的行为鲁棒性,CaliDist能够增强这些系统在复杂环境下的可靠性和用户信任度,推动智能系统的实际应用。未来,该方法也可能扩展到其他领域,如图像处理和机器人决策等。

📄 摘要(原文)

Existing calibration methods for Large Language Models (LLMs) often overlook a critical dimension of trustworthiness: a model's {\em behavioral robustness} to irrelevant or misleading information. In this paper, we argue that a model's true confidence should reflect its stability under cognitive pressure. We introduce \textsc{CaliDist}, a novel post-hoc calibration approach that directly measures and penalizes a model's susceptibility to distraction. \textsc{CaliDist} quantifies how an LLM's predictions and uncertainty change when its input prompt is perturbed with semantic \textit{distractors}. This stability (or lack thereof) signal is then used to adaptively scale the model's initial confidence score. Our extensive experiments on seven Natural Language Understanding classification benchmarks using six distinct LLMs show that \textsc{CaliDist} consistently achieves lower Expected Calibration Error (ECE) and Brier Score compared with strong baselines. Remarkably, our method reduces the ECE from 23\% to 7\% on average--a relative improvement of 70\%--demonstrating that behavioral stability is a powerful signal for calibration. We make our code and datasets available at github.com/m-anas-j/CaliDist.