Smaller = Weaker? Benchmarking Robustness of Quantized LLMs in Code Generation

📄 arXiv: 2506.22776v1 📥 PDF

作者: Sen Fang, Weiyuan Ding, Antonio Mastropaolo, Bowen Xu

分类: cs.SE, cs.AI, cs.PL

发布日期: 2025-06-28

备注: 13 pages, 6 figures


💡 一句话要点

量化提升代码生成LLM鲁棒性:对抗攻击与噪声扰动双重视角

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化 大型语言模型 代码生成 鲁棒性 对抗攻击 噪声扰动 模型压缩 LLM

📋 核心要点

  1. 现有研究主要关注量化对LLM性能的影响,忽略了其对鲁棒性的潜在影响,尤其是在代码生成任务中。
  2. 该研究从对抗攻击和噪声扰动两个角度,系统评估了量化对LLM代码生成鲁棒性的影响。
  3. 实验结果表明,量化后的LLM在对抗攻击和噪声扰动下,通常表现出比全精度模型更强的鲁棒性。

📝 摘要(中文)

量化已成为压缩大型语言模型(LLMs)的主流方法,它无需修改架构即可减少内存需求并加速推理。现有研究主要集中在评估量化LLM相对于其原始模型的有效性,而对鲁棒性的影响在很大程度上仍未被探索。本文首次系统地研究了量化如何影响LLM在代码生成任务中的鲁棒性。通过对四个著名的LLM家族(LLaMA、DeepSeek、CodeGen和StarCoder)进行广泛的实验,参数规模从350M到33B不等,我们从双重角度评估鲁棒性:输入提示的对抗攻击和模型架构的噪声扰动。我们的发现挑战了传统观点,表明量化LLM通常表现出优于其全精度模型的鲁棒性,在我们的对抗实验中,51.59%的量化LLM表现出更好的弹性,而全精度模型为42.86%。同样,我们的噪声扰动实验也证实,量化后的LLM通常能够承受更高水平的权重扰动。这些结果表明,量化不仅降低了计算需求,实际上还可以提高LLM在代码生成任务中的可靠性,为开发更鲁棒和高效的LLM部署策略提供了宝贵的见解。

🔬 方法详解

问题定义:论文旨在研究量化对大型语言模型(LLMs)在代码生成任务中鲁棒性的影响。现有方法主要关注量化对模型性能(如准确率、速度)的影响,而忽略了量化后模型在面对对抗攻击和噪声扰动时的表现。现有方法的痛点在于缺乏对量化LLM鲁棒性的系统性评估。

核心思路:论文的核心思路是通过系统性的实验,从对抗攻击和噪声扰动两个方面评估量化LLM的鲁棒性。通过对比量化模型和全精度模型在不同攻击和扰动下的性能表现,揭示量化对LLM鲁棒性的影响。这种设计旨在挑战“更小=更弱”的传统观念,并探索量化是否能在降低计算成本的同时提升模型的可靠性。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择四个主流LLM家族(LLaMA, DeepSeek, CodeGen, StarCoder),覆盖不同参数规模;2) 对模型进行量化处理;3) 设计对抗攻击方法,生成对抗样本;4) 设计噪声扰动方法,模拟模型权重扰动;5) 在代码生成任务上评估量化模型和全精度模型在对抗攻击和噪声扰动下的性能表现;6) 分析实验结果,得出结论。

关键创新:该研究的关键创新在于首次系统性地研究了量化对LLM在代码生成任务中鲁棒性的影响。以往研究主要关注量化对模型性能的影响,而忽略了鲁棒性。该研究通过双重视角(对抗攻击和噪声扰动)全面评估了量化LLM的鲁棒性,并发现量化可以提升LLM的鲁棒性,挑战了传统认知。

关键设计:在对抗攻击方面,论文可能采用了诸如梯度攻击、基于优化的攻击等方法,目标是生成能够欺骗模型的对抗样本。在噪声扰动方面,论文可能采用了随机噪声、高斯噪声等方式,模拟模型权重在实际部署中可能受到的干扰。具体的参数设置、损失函数和网络结构等细节可能因不同的LLM家族和量化方法而有所不同,但核心目标是评估量化对模型抵抗攻击和扰动的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,量化后的LLM在对抗攻击下表现出更强的鲁棒性,51.59%的量化LLM优于其全精度版本(42.86%)。噪声扰动实验也证实,量化后的LLM能够承受更高水平的权重扰动。这些结果表明,量化不仅能降低计算成本,还能提升LLM在代码生成任务中的可靠性。

🎯 应用场景

该研究成果可应用于对模型鲁棒性有较高要求的代码生成场景,例如自动驾驶、金融交易等。通过量化提升LLM的鲁棒性,可以提高这些系统在面对恶意攻击或环境干扰时的可靠性。此外,该研究也为开发更鲁棒和高效的LLM部署策略提供了指导,有助于推动LLM在资源受限环境下的应用。

📄 摘要(原文)

Quantization has emerged as a mainstream method for compressing Large Language Models (LLMs), reducing memory requirements and accelerating inference without architectural modifications. While existing research primarily focuses on evaluating the effectiveness of quantized LLMs compared to their original counterparts, the impact on robustness remains largely unexplored.In this paper, we present the first systematic investigation of how quantization affects the robustness of LLMs in code generation tasks. Through extensive experiments across four prominent LLM families (LLaMA, DeepSeek, CodeGen, and StarCoder) with parameter scales ranging from 350M to 33B, we evaluate robustness from dual perspectives: adversarial attacks on input prompts and noise perturbations on model architecture. Our findings challenge conventional wisdom by demonstrating that quantized LLMs often exhibit superior robustness compared to their full-precision counterparts, with 51.59% versus 42.86% of our adversarial experiments showing better resilience in quantized LLMs. Similarly, our noise perturbation experiments also confirm that LLMs after quantitation generally withstand higher levels of weight disturbances. These results suggest that quantization not only reduces computational requirements but can actually enhance LLMs' reliability in code generation tasks, providing valuable insights for developing more robust and efficient LLM deployment strategies.