Estimating the Black-box LLM Uncertainty with Distribution-Aligned Adversarial Distillation

📄 arXiv: 2605.05777v1 📥 PDF

作者: Huizi Cui, Huan Ma, Qilin Wang, Yuhang Gao, Changqing Zhang

分类: cs.CL

发布日期: 2026-05-07

备注: Accepted to ACL 2026


💡 一句话要点

提出分布对齐对抗蒸馏(DisAAD)框架,实现黑盒大模型的高效不确定性量化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 不确定性量化 知识蒸馏 黑盒模型 证据学习 幻觉检测

📋 核心要点

  1. 现有不确定性量化方法依赖昂贵的多重采样或模型内部参数,难以在黑盒API场景下实现实时、准确的幻觉检测。
  2. 提出DisAAD框架,通过生成-判别对抗机制,训练轻量级代理模型对齐黑盒LLM的输出分布,并结合证据学习进行不确定性估计。
  3. 实验表明,仅需目标模型1%规模的代理模型即可实现高效可靠的不确定性量化,显著降低了计算成本并提升了实时性。

📝 摘要(中文)

大型语言模型(LLM)在复杂推理和问答任务中取得了显著进展,但幻觉问题仍是阻碍其商业化部署的核心瓶颈,尤其是对于仅能通过API访问的黑盒模型。现有的不确定性量化方法通常依赖于计算昂贵的多重采样或模型内部参数,这不仅限制了实时估计,也难以捕捉黑盒推理过程中的隐含信息。为此,本文提出了分布对齐对抗蒸馏(DisAAD)方法。该方法引入生成-判别架构,引导轻量级代理模型学习黑盒LLM输出分布的高质量区域,从而使其具备判断黑盒模型“是否知晓”的能力。随后,利用代理模型重现黑盒LLM的特定响应,并基于证据学习(Evidential Learning)估计相应的不确定性。实验证明,即使代理模型仅占目标LLM规模的1%,也能实现可靠的不确定性量化。

🔬 方法详解

问题定义:针对商业化黑盒LLM,现有不确定性量化方法(如Self-Consistency)需要多次采样,计算开销巨大且无法获取模型内部状态,导致在实时应用中难以有效识别幻觉。

核心思路:通过知识蒸馏将黑盒模型的推理能力与分布特征迁移至轻量级代理模型。利用对抗训练机制,使代理模型能够精准拟合黑盒模型的输出分布,从而在无需访问内部参数的情况下,通过代理模型推断黑盒模型的置信度。

技术框架:整体采用生成-判别架构。生成器(代理模型)负责拟合黑盒LLM的输出分布,判别器则用于区分代理模型的输出与黑盒模型的真实响应。训练完成后,利用证据学习(Evidential Learning)对代理模型的输出进行建模,将不确定性量化转化为对狄利克雷分布参数的预测。

关键创新:引入分布对齐(Distribution-Aligned)机制,不仅学习输出结果,更学习黑盒模型输出的概率分布特征。这种方法使得代理模型能够捕捉黑盒模型在不同推理路径上的不确定性,而非仅仅是简单的文本匹配。

关键设计:采用证据学习框架,通过预测狄利克雷分布的参数(α)来量化不确定性。损失函数设计结合了对抗损失与证据学习损失,确保代理模型在保持生成质量的同时,能够准确输出反映不确定性的分布参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,DisAAD在多个基准测试中表现优异,代理模型仅需目标LLM 1%的参数量即可达到与复杂采样方法相当甚至更优的量化效果。在处理复杂推理任务时,该方法在不确定性估计的校准误差(ECE)和AUROC指标上均显著优于传统的采样基线方法。

🎯 应用场景

该技术广泛适用于金融、医疗、法律等对准确性要求极高的黑盒LLM应用场景。通过实时量化模型输出的不确定性,系统可在模型产生潜在幻觉时触发预警或人工介入,显著提升AI系统的可靠性与安全性,降低企业部署商业API的风险。

📄 摘要(原文)

Large language models (LLMs) have progressed rapidly in complex reasoning and question answering, yet LLM hallucination remains a central bottleneck that hinders practical deployment, especially for commercial black-box LLMs accessible only via APIs. Existing uncertainty quantification methods typically depend on computationally expensive multiple sampling or internal parameters, which prevents real-time estimation and fails to capture information implicit in the black-box reasoning process. To address this issue, we propose Distribution-Aligned Adversarial Distillation (DisAAD), which introduces a generation-discrimination architecture to guide a lightweight proxy model to learn the high-quality regions of the output distribution of the black-box LLM, thus effectively endowing it with the ability to know whether the black-box LLM knows or not. Subsequently, we use the proxy model to reproduce the specific responses of the black-box LLM and estimate the corresponding uncertainty based on evidence learning. Extensive experiments have verified the effectiveness and promise of our proposed method, indicating that a proxy model even one that only accounts for 1\% of the target LLM's size can achieve reliable uncertainty quantification.