Accuracy is Not All You Need

📄 arXiv: 2407.09141v1 📥 PDF

作者: Abhinav Dutta, Sanjeev Krishnan, Nipun Kwatra, Ramachandran Ramjee

分类: cs.LG

发布日期: 2024-07-12

期刊: https://proceedings.neurips.cc/paper_files/paper/2024/hash/e0e956681b04ac126679e8c7dd706b2e-Abstract-Conference.html


💡 一句话要点

揭示压缩LLM精度相似但行为迥异现象,提出KL散度和翻转作为评估指标

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型压缩 模型评估 KL散度 翻转现象 量化 模型行为分析 MT-Bench

📋 核心要点

  1. 现有LLM压缩评估主要依赖准确率,忽略了压缩后模型行为的细微变化,可能导致用户体验下降。
  2. 论文核心在于即使压缩模型与基线模型准确率相近,其输出答案的正确性分布可能发生显著变化,即出现“翻转”。
  3. 通过实验证明,压缩模型在自由生成任务中表现明显不如基线模型,并提出KL散度和翻转作为更有效的评估指标。

📝 摘要(中文)

当使用量化等技术压缩大型语言模型(LLM)时,验证这些技术有效性的主要方法是测量模型在各种基准测试上的准确性。如果基线模型和压缩模型的准确性接近,则通常认为质量上的降级可以忽略不计。然而,即使基线模型和压缩模型的准确性相似,我们观察到一种“翻转”现象,即答案在正确和错误之间成比例地变化。我们对多种压缩技术、模型和数据集的指标进行了详细研究,表明即使准确性相似,压缩模型对最终用户的行为也常常与基线模型显著不同。我们还使用MT-Bench对压缩模型进行了定性和定量评估,表明压缩模型在这种自由形式的生成任务中明显不如基线模型。因此,我们认为压缩技术也应该使用距离度量进行评估。我们提出了两个这样的指标,KL散度和翻转,并表明它们具有良好的相关性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)压缩后评估不充分的问题。现有评估方法主要依赖于准确率,但即使压缩模型的准确率与基线模型相似,其行为也可能发生显著变化,导致用户体验下降。这种变化体现在答案的正确性上,即可能出现“翻转”现象,原有正确答案变为错误答案,反之亦然。现有方法无法有效捕捉这种细微但重要的变化。

核心思路:论文的核心思路是,仅仅依靠准确率来评估压缩后的LLM是不够的,需要引入能够衡量模型输出分布差异的指标。通过观察压缩模型输出答案的“翻转”现象,并结合KL散度等距离度量,可以更全面地评估压缩对模型行为的影响。这种思路强调了评估压缩模型时,不仅要关注整体准确率,还要关注模型输出的稳定性和一致性。

技术框架:论文的技术框架主要包括以下几个部分:1) 对比基线模型和压缩模型在不同数据集上的表现,重点关注准确率相似情况下的“翻转”现象。2) 使用MT-Bench等基准测试对模型进行定性和定量评估,考察其在自由生成任务中的表现。3) 引入KL散度和“翻转”作为新的评估指标,并分析它们之间的相关性。4) 通过实验验证这些指标的有效性,证明它们能够更准确地反映压缩对模型行为的影响。

关键创新:论文最重要的技术创新在于提出了使用KL散度和“翻转”作为评估压缩LLM的新指标。与传统的准确率评估相比,这些指标能够更敏感地捕捉到压缩对模型输出分布的影响,从而更全面地评估压缩技术的有效性。这种评估方法不仅关注模型的整体准确率,还关注模型输出的稳定性和一致性,为压缩LLM的评估提供了新的视角。

关键设计:论文的关键设计包括:1) 定义了“翻转”这一概念,并提出了相应的计算方法。2) 选择了KL散度作为衡量模型输出分布差异的指标,并分析了其与“翻转”之间的相关性。3) 使用MT-Bench等基准测试对模型进行评估,考察其在自由生成任务中的表现。4) 对多种压缩技术、模型和数据集进行了实验,验证了所提出指标的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使压缩模型的准确率与基线模型相似,其在MT-Bench等自由生成任务中的表现也明显不如基线模型。同时,KL散度和“翻转”等指标能够更有效地反映压缩对模型行为的影响,并与模型的实际表现具有良好的相关性。这些发现强调了使用更全面的评估指标的重要性。

🎯 应用场景

该研究成果可应用于各种需要压缩LLM的场景,例如移动设备、边缘计算和资源受限的环境。通过使用更全面的评估指标,可以更好地选择和优化压缩技术,从而在保证模型性能的同时,降低计算成本和存储需求。这有助于推动LLM在更广泛的领域得到应用。

📄 摘要(原文)

When Large Language Models (LLMs) are compressed using techniques such as quantization, the predominant way to demonstrate the validity of such techniques is by measuring the model's accuracy on various benchmarks.If the accuracies of the baseline model and the compressed model are close, it is assumed that there was negligible degradation in quality.However, even when the accuracy of baseline and compressed model are similar, we observe the phenomenon of flips, wherein answers change from correct to incorrect and vice versa in proportion.We conduct a detailed study of metrics across multiple compression techniques, models and datasets, demonstrating that the behavior of compressed models as visible to end-users is often significantly different from the baseline model, even when accuracy is similar.We further evaluate compressed models qualitatively and quantitatively using MT-Bench and show that compressed models are significantly worse than baseline models in this free-form generative task.Thus, we argue that compression techniques should also be evaluated using distance metrics.We propose two such metrics, KL-Divergence and flips, and show that they are well correlated.