Efficient Uncertainty in LLMs through Evidential Knowledge Distillation

📄 arXiv: 2507.18366v1 📥 PDF

作者: Lakshmana Sri Harsha Nemani, P. K. Srijith, Tomasz Kuśmierczyk

分类: cs.LG, stat.ML

发布日期: 2025-07-24


💡 一句话要点

提出基于证据知识蒸馏的高效LLM不确定性量化方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 不确定性量化 知识蒸馏 证据学习 低秩适应

📋 核心要点

  1. 现有LLM不确定性量化方法计算成本高昂,通常依赖多次前向传播的采样。
  2. 通过知识蒸馏,将不确定性感知的教师模型知识迁移到单次前向传播的学生模型。
  3. 实验表明,学生模型在不牺牲性能的前提下,实现了与教师模型相当甚至更优的不确定性量化。

📝 摘要(中文)

准确的不确定性量化是标准LLM面临的关键挑战,促使人们采用贝叶斯和集成方法。然而,这些方法通常需要计算代价高昂的采样,涉及多次前向传播才能有效估计预测不确定性。本文提出了一种新颖的方法,能够在不牺牲性能的情况下,实现LLM中高效且有效的不确定性估计。具体而言,我们将需要多次前向传播的、具有不确定性感知能力的教师模型,蒸馏成紧凑的学生模型,这些学生模型共享相同的架构,但使用低秩适应(LoRA)进行微调。我们比较了两种不同的蒸馏策略:一种是学生采用传统的基于softmax的输出,另一种是学生利用狄利克雷分布的输出,通过证据学习显式地建模认知不确定性。在分类数据集上的实验评估表明,这些学生模型可以实现与教师模型相当或更优越的预测和不确定性量化性能,同时关键的是只需要一次前向传播。据我们所知,这是首次证明可以通过证据蒸馏在LLM中实现即时且稳健的不确定性量化。

🔬 方法详解

问题定义:现有大型语言模型(LLM)在不确定性量化方面存在挑战,传统的贝叶斯方法和集成方法虽然可以提供较好的不确定性估计,但需要多次前向传播,计算成本很高,难以在实际应用中部署。因此,如何在保证不确定性量化精度的同时,降低计算复杂度,是本文要解决的核心问题。

核心思路:本文的核心思路是通过知识蒸馏,将一个具有不确定性感知能力的教师模型(需要多次前向传播)的知识迁移到一个更小的学生模型(只需要一次前向传播)。这样,学生模型就可以在保持甚至提升不确定性量化性能的同时,显著降低计算成本。

技术框架:整体框架包含两个主要部分:1) 训练一个不确定性感知的教师模型;2) 使用知识蒸馏将教师模型的知识迁移到学生模型。教师模型可以使用现有的贝叶斯方法或集成方法,学生模型则采用与教师模型相同的架构,但使用低秩适应(LoRA)进行微调。蒸馏过程中,比较了两种不同的策略:一种是学生模型使用传统的softmax输出,另一种是学生模型使用狄利克雷分布输出,通过证据学习显式建模认知不确定性。

关键创新:本文的关键创新在于将证据学习与知识蒸馏相结合,用于LLM的不确定性量化。通过证据学习,学生模型可以直接输出狄利克雷分布的参数,从而显式地建模认知不确定性。同时,使用LoRA进行微调,可以有效地降低学生模型的训练成本。

关键设计:在证据学习中,损失函数的设计至关重要。本文可能采用了基于证据的损失函数,例如Dirichlet likelihood loss或evidence regularization loss,以鼓励学生模型学习到更准确的不确定性估计。此外,LoRA的秩(rank)的选择也会影响学生模型的性能和训练成本。具体参数设置和损失函数细节在论文中应该有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过证据知识蒸馏得到的学生模型,在分类数据集上实现了与教师模型相当甚至更优越的预测和不确定性量化性能,同时只需要一次前向传播。这意味着在保证精度的前提下,计算成本显著降低,为LLM在实际应用中进行可靠的不确定性量化提供了新的解决方案。

🎯 应用场景

该研究成果可广泛应用于对LLM不确定性量化有较高要求的场景,例如医疗诊断、金融风控、自动驾驶等。通过降低计算成本,使得在资源受限的环境中部署具有可靠不确定性估计的LLM成为可能。未来,该方法可以进一步扩展到其他类型的模型和任务中。

📄 摘要(原文)

Accurate uncertainty quantification remains a key challenge for standard LLMs, prompting the adoption of Bayesian and ensemble-based methods. However, such methods typically necessitate computationally expensive sampling, involving multiple forward passes to effectively estimate predictive uncertainty. In this paper, we introduce a novel approach enabling efficient and effective uncertainty estimation in LLMs without sacrificing performance. Specifically, we distill uncertainty-aware teacher models - originally requiring multiple forward passes - into compact student models sharing the same architecture but fine-tuned using Low-Rank Adaptation (LoRA). We compare two distinct distillation strategies: one in which the student employs traditional softmax-based outputs, and another in which the student leverages Dirichlet-distributed outputs to explicitly model epistemic uncertainty via evidential learning. Empirical evaluations on classification datasets demonstrate that such students can achieve comparable or superior predictive and uncertainty quantification performance relative to their teacher models, while critically requiring only a single forward pass. To our knowledge, this is the first demonstration that immediate and robust uncertainty quantification can be achieved in LLMs through evidential distillation.