Does Compression Preserve Uncertainty? A Unified Benchmark for Quantized and Sparse LLMs via Conformal Prediction
作者: Yujia Tong, Yuxi Wang, Yunyang Wan, Tian Zhang, Junhao Dong, Jingling Yuan
分类: cs.AI
发布日期: 2026-06-01
💡 一句话要点
提出基于Conformal Prediction的统一基准,评估压缩LLM的不确定性保持能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 模型压缩 量化 剪枝 不确定性量化 Conformal Prediction 安全攸关应用
📋 核心要点
- 现有LLM压缩评估主要关注准确率,忽略了模型在安全场景下量化不确定性的重要性。
- 论文利用Conformal Prediction,为压缩LLM提供了一种严格且分布无关的不确定性评估方法。
- 实验表明压缩会使准确率和不确定性脱钩,大模型更能容忍压缩带来的不确定性,且不确定性膨胀具有阈值效应。
📝 摘要(中文)
模型压缩技术,如量化和剪枝,被广泛用于降低大型语言模型(LLMs)的部署成本,但现有评估几乎只关注准确率的保持。然而,在安全攸关的应用中,模型可靠地量化自身不确定性的能力同样重要。本文探讨了压缩是否能保持这种能力。通过Conformal Prediction提供严格的、分布无关的不确定性度量,对12个LLM在各种压缩配置下,跨五个NLP任务进行了基准测试。实验表明:(I)压缩经常使准确率与不确定性脱钩;(II)较大的模型比小的模型更能有效地吸收压缩引起的不确定性;(III)不确定性膨胀通常是阈值式的,而不是渐进式的。这些结果表明,仅凭准确率评估不足以评估压缩LLM的部署准备情况,并且不确定性感知基准测试应成为模型压缩流程的标准组成部分。
🔬 方法详解
问题定义:论文旨在解决现有LLM压缩评估方法的不足,即过度关注准确率而忽略了模型不确定性量化的能力。在安全攸关的应用中,模型不仅需要准确预测,还需要可靠地估计自身预测的不确定性。现有方法无法有效评估压缩对模型不确定性感知能力的影响,可能导致部署存在安全隐患的压缩模型。
核心思路:论文的核心思路是利用Conformal Prediction框架,为压缩后的LLM提供一种严格且分布无关的不确定性度量方法。Conformal Prediction能够根据模型的预测结果和校准集,生成一个包含真实标签的预测集合,并保证一定的覆盖率。通过分析压缩前后模型预测集合的大小和覆盖率,可以评估压缩对模型不确定性感知能力的影响。
技术框架:论文的整体框架包括以下几个步骤:1)选择待评估的LLM和压缩方法(如量化、剪枝);2)使用压缩方法对LLM进行压缩,得到压缩后的模型;3)选择NLP任务和数据集;4)使用Conformal Prediction框架,对压缩前后的模型进行不确定性评估;5)分析实验结果,比较压缩前后模型的不确定性量化能力。
关键创新:论文的关键创新在于将Conformal Prediction应用于评估压缩LLM的不确定性保持能力。与传统的基于概率的置信度估计方法不同,Conformal Prediction提供了一种分布无关的、具有理论保证的不确定性度量。这使得论文能够更可靠地评估压缩对模型不确定性感知能力的影响,避免了对模型预测概率分布的假设。
关键设计:论文的关键设计包括:1)选择合适的Conformal Prediction方法,例如split Conformal Prediction;2)选择合适的校准集,保证校准集的代表性;3)选择合适的覆盖率水平,例如90%;4)设计合理的实验方案,比较不同压缩方法、不同模型大小、不同NLP任务下的不确定性量化结果。论文还可能使用了特定的非一致性度量(nonconformity measure)来评估预测结果与真实标签之间的差异,从而影响预测集合的大小。
🖼️ 关键图片
📊 实验亮点
实验结果表明,压缩经常导致准确率和不确定性脱钩,即模型准确率可能保持不变,但其不确定性量化能力显著下降。此外,较大的模型比小的模型更能有效地吸收压缩引起的不确定性。不确定性膨胀通常是阈值式的,而非渐进式的,意味着在压缩达到一定程度后,不确定性会突然大幅增加。这些发现强调了在评估压缩LLM时,不确定性感知的重要性。
🎯 应用场景
该研究成果可应用于对安全性要求较高的LLM部署场景,例如医疗诊断、金融风控、自动驾驶等。通过评估压缩对模型不确定性的影响,可以选择既能降低部署成本又能保持良好不确定性量化能力的压缩方案,从而提高LLM在实际应用中的可靠性和安全性。未来,该研究可以扩展到其他类型的模型和压缩方法,并开发更高效的不确定性评估工具。
📄 摘要(原文)
Model compression techniques such as quantization and pruning are widely used to reduce the deployment cost of large language models (LLMs), with existing evaluations focusing almost exclusively on accuracy preservation. However, in safety-critical applications, a model's ability to reliably quantify its own uncertainty is equally important. We ask: does compression preserve this ability? To answer this question, we benchmark 12 LLMs under various compression configurations across five NLP tasks, using conformal prediction to provide a rigorous, distribution-free measure of uncertainty. Our experiments reveal that: (I) compression frequently decouples accuracy from uncertainty; (II) larger models absorb compression-induced uncertainty far more effectively than smaller ones; and (III) uncertainty inflation is often threshold-like rather than gradual. These results suggest that accuracy-only evaluation is insufficient for assessing the deployment readiness of compressed LLMs, and that uncertainty-aware benchmarking should be a standard component of model compression pipelines.