Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression

📄 arXiv: 2407.04965v3 📥 PDF

作者: Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar

分类: cs.CL

发布日期: 2024-07-06 (更新: 2024-10-11)

备注: Findings of EMNLP 2024

🔗 代码/项目: GITHUB


💡 一句话要点

针对LLM压缩,提出多维度安全评估框架,超越困惑度指标。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM压缩 安全性评估 偏见 毒性 生成危害 表征危害 方言偏见 多维度评估

📋 核心要点

  1. 现有LLM压缩方法主要关注困惑度,忽略了压缩对模型安全性的潜在影响,如偏见和毒性。
  2. 本文提出一个多维度安全评估框架,考察压缩对生成危害、表征危害、方言偏见和性能的影响。
  3. 实验表明,压缩可能意外减轻生成危害,但加剧表征危害,且不同压缩方法对安全性的影响差异显著。

📝 摘要(中文)

随着模型压缩技术的发展,大型语言模型(LLM)越来越多地部署在实际应用中。压缩后的LLM与大量人群互动,因此,除了关注训练损失(困惑度)外,模型行为的其他关键方面,特别是安全性,需要系统评估。本文从四个维度研究了模型压缩的影响:(1)生成危害,即生成中的偏见和毒性;(2)表征危害,即判别任务中的偏见;(3)方言偏见;(4)语言建模和下游任务性能。我们考察了包括非结构化剪枝、半结构化剪枝和量化在内的多种LLM压缩技术。分析表明,压缩可能导致意想不到的后果。虽然压缩可能无意中减轻LLM的生成危害,但它仍然可能加剧表征危害。此外,增加压缩对不同受保护群体产生不同的影响。最后,不同的压缩方法对安全性的影响截然不同:例如,量化主要保留偏见,而剪枝会迅速降低性能。我们的研究结果强调了将安全评估纳入压缩LLM的开发过程的重要性,以确保其在实际应用中的可靠性。

🔬 方法详解

问题定义:现有的大型语言模型压缩方法主要关注于困惑度(perplexity)的优化,即尽可能在压缩模型的同时保持其语言建模能力。然而,这种单一指标的优化忽略了压缩过程可能对模型安全性产生的负面影响,例如引入或加剧模型中的偏见、毒性以及对特定人群的歧视。因此,需要一种更全面的评估方法来衡量压缩LLM的安全性。

核心思路:本文的核心思路是超越传统的困惑度指标,从多个维度对压缩后的LLM进行安全评估。具体来说,作者考虑了生成危害(generation harm)、表征危害(representational harm)、方言偏见(dialect bias)以及语言建模和下游任务性能四个维度。通过综合评估这些维度,可以更全面地了解压缩对LLM行为的影响,并识别潜在的安全风险。

技术框架:该研究的技术框架主要包括以下几个步骤:1)选择一系列具有代表性的LLM压缩技术,包括非结构化剪枝、半结构化剪枝和量化;2)针对每个压缩技术,在不同的压缩率下生成一系列压缩后的LLM;3)使用一系列评估指标,从生成危害、表征危害、方言偏见和性能四个维度对压缩后的LLM进行评估;4)分析评估结果,揭示压缩对LLM安全性的影响,并比较不同压缩技术的安全性。

关键创新:本文最重要的技术创新点在于提出了一个多维度的安全评估框架,用于评估压缩LLM的安全性。该框架超越了传统的困惑度指标,考虑了生成危害、表征危害和方言偏见等多个重要的安全维度。此外,该研究还对多种LLM压缩技术进行了全面的安全评估,揭示了压缩对LLM安全性的复杂影响。

关键设计:在评估生成危害方面,作者使用了现有的偏见和毒性检测工具,例如RealToxicityPrompts。在评估表征危害方面,作者使用了现有的偏见检测数据集,例如StereoSet。在评估方言偏见方面,作者使用了针对不同方言设计的语言建模任务。在评估性能方面,作者使用了标准的语言建模和下游任务评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,压缩可能意外减轻LLM的生成危害,但会加剧表征危害。不同压缩方法对安全性的影响差异显著,例如,量化主要保留偏见,而剪枝会迅速降低性能。增加压缩对不同受保护群体产生不同的影响,表明需要针对特定群体进行安全评估。

🎯 应用场景

该研究成果可应用于LLM压缩算法的安全性评估和优化,帮助开发者选择更安全的压缩方法,并降低压缩后的LLM在实际应用中产生偏见、歧视等负面影响的风险。此外,该研究提出的多维度安全评估框架也可用于评估其他类型的AI模型的安全性。

📄 摘要(原文)

Increasingly, model compression techniques enable large language models (LLMs) to be deployed in real-world applications. As a result of this momentum towards local deployment, compressed LLMs will interact with a large population. Prior work on compression typically prioritize preserving perplexity, which is directly analogous to training loss. The impact of compression method on other critical aspects of model behavior\, -- \,particularly safety\, -- \,requires systematic assessment. To this end, we investigate the impact of model compression along four dimensions: (1) degeneration harm, i.e., bias and toxicity in generation; (2) representational harm, i.e., biases in discriminative tasks; (3) dialect bias; and(4) language modeling and downstream task performance. We examine a wide spectrum of LLM compression techniques, including unstructured pruning, semi-structured pruning, and quantization. Our analysis reveals that compression can lead to unexpected consequences. Although compression may unintentionally alleviate LLMs' degeneration harm, it can still exacerbate representational harm. Furthermore, increasing compression produces a divergent impact on different protected groups. Finally, different compression methods have drastically different safety impacts: for example, quantization mostly preserves bias while pruning degrades quickly. Our findings underscore the importance of integrating safety assessments into the development of compressed LLMs to ensure their reliability across real-world applications.\footnote{Our implementation and results are available here: \url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}}