Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification

📄 arXiv: 2507.07236v2 📥 PDF

作者: Maya Kruse, Majid Afshar, Saksham Khatwani, Anoop Mayampurath, Guanhua Chen, Yanjun Gao

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-09 (更新: 2025-09-05)

备注: Accepted to EMNLP 2025 Main Conference

🔗 代码/项目: GITHUB


💡 一句话要点

MUSE:一种基于信息论的多LLM不确定性量化方法,简单有效。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 不确定性量化 模型集成 Jensen-Shannon散度 校准 思维链蒸馏 信息论 子集选择

📋 核心要点

  1. 现有不确定性量化方法主要关注单个LLM,忽略了模型多样性带来的互补预测潜力。
  2. MUSE利用Jensen-Shannon散度识别并聚合校准良好的LLM子集,实现更可靠的不确定性估计。
  3. 实验表明,MUSE在二元预测任务上优于单模型和朴素集成,并可用于思维链蒸馏微调。

📝 摘要(中文)

大型语言模型(LLMs)在不同输入上常常表现出不一致性,表明存在不确定性,因此需要在高风险场景中量化这种不确定性。以往关于校准和不确定性量化的工作通常侧重于单个模型,忽略了模型多样性的潜力。我们假设,由于训练差异和语言的齐夫定律特性,LLMs会做出互补的预测,并且聚合它们的输出可以得到更可靠的不确定性估计。为了利用这一点,我们提出了一种名为MUSE(通过子集集成实现多LLM不确定性)的简单信息论方法,该方法使用Jensen-Shannon散度来识别和聚合校准良好的LLM子集。在二元预测任务上的实验表明,与单模型和朴素集成基线相比,MUSE在校准和预测性能方面都有所提高。此外,我们还探索了使用MUSE作为引导信号,通过思维链蒸馏来微调LLM以进行校准。MUSE的代码已开源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在预测时表现出的不确定性问题,尤其是在高风险场景下,准确量化这种不确定性至关重要。现有方法主要集中在单个LLM的校准上,忽略了不同LLM之间可能存在的互补性,导致不确定性估计不够准确。

核心思路:论文的核心思路是利用多个LLM的预测结果,通过信息论的方法选择性地聚合这些结果,从而获得更准确的不确定性估计。作者认为,由于训练数据和方式的差异,不同的LLM在预测时会产生互补的知识,合理利用这些互补性可以提高预测的可靠性。

技术框架:MUSE方法主要包含以下几个阶段:1) 使用多个LLM对输入进行预测,得到多个预测结果。2) 使用Jensen-Shannon Divergence (JSD) 计算不同LLM子集之间的预测差异,JSD值越低,表明子集内的模型预测越一致,校准越好。3) 选择JSD值最低的LLM子集。4) 将选定的LLM子集的预测结果进行聚合,得到最终的预测结果和不确定性估计。

关键创新:MUSE的关键创新在于其利用信息论中的Jensen-Shannon Divergence来选择性地聚合LLM子集。与简单的集成方法(如平均)相比,MUSE能够自动识别并选择校准良好的LLM子集,从而提高不确定性估计的准确性。此外,MUSE还可以作为引导信号,通过思维链蒸馏来微调LLM,进一步提高校准性能。

关键设计:MUSE的关键设计包括:1) 使用Jensen-Shannon Divergence作为选择LLM子集的指标,JSD能够衡量概率分布之间的差异,从而选择预测一致性高的子集。2) 通过实验确定合适的LLM子集大小,以平衡预测准确性和计算成本。3) 将MUSE作为引导信号,通过思维链蒸馏来微调LLM,具体而言,使用MUSE选择的LLM子集的预测结果作为目标,训练单个LLM,使其能够模仿集成模型的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MUSE在二元预测任务上显著优于单模型和朴素集成基线。例如,在某些数据集上,MUSE可以将校准误差降低10%以上,同时提高预测准确率。此外,使用MUSE作为引导信号进行思维链蒸馏,可以进一步提高LLM的校准性能。

🎯 应用场景

MUSE可应用于任何需要量化LLM不确定性的场景,例如医疗诊断、金融风险评估、自动驾驶等。通过提供更可靠的不确定性估计,MUSE可以帮助决策者更好地理解LLM的预测结果,并做出更明智的决策。未来,MUSE可以扩展到更多类型的任务和模型,并与其他不确定性量化方法相结合,进一步提高预测的可靠性。

📄 摘要(原文)

Large language models (LLMs) often behave inconsistently across inputs, indicating uncertainty and motivating the need for its quantification in high-stakes settings. Prior work on calibration and uncertainty quantification often focuses on individual models, overlooking the potential of model diversity. We hypothesize that LLMs make complementary predictions due to differences in training and the Zipfian nature of language, and that aggregating their outputs leads to more reliable uncertainty estimates. To leverage this, we propose MUSE (Multi-LLM Uncertainty via Subset Ensembles), a simple information-theoretic method that uses Jensen-Shannon Divergence to identify and aggregate well-calibrated subsets of LLMs. Experiments on binary prediction tasks demonstrate improved calibration and predictive performance compared to single-model and naïve ensemble baselines. In addition, we explore using MUSE as guided signals with chain-of-thought distillation to fine-tune LLMs for calibration. MUSE is available at:https://github.com/LARK-NLP-Lab/MUSE.