Efficiency vs. Alignment: Investigating Safety and Fairness Risks in Parameter-Efficient Fine-Tuning of LLMs

📄 arXiv: 2511.00382v1 📥 PDF

作者: Mina Taraghi, Yann Pequignot, Amin Nikanjam, Mohamed Amine Merzouk, Foutse Khomh

分类: cs.AI, cs.LG

发布日期: 2025-11-01


💡 一句话要点

研究参数高效微调对LLM安全性与公平性的影响,揭示效率与对齐的权衡。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 参数高效微调 安全性 公平性 对齐 LoRA Prompt-Tuning

📋 核心要点

  1. 现有LLM微调方法在提升特定任务性能的同时,可能降低模型的安全性和公平性,需要系统评估不同微调方法的影响。
  2. 该研究对比了四种参数高效微调方法(LoRA、IA3、Prompt-Tuning、P-Tuning)在安全性和公平性上的表现,揭示了效率与对齐之间的权衡。
  3. 实验结果表明,基于适配器的微调方法更安全且对公平性影响较小,而基于Prompt的微调方法则可能降低安全性和公平性,且不同基础模型表现各异。

📝 摘要(中文)

本研究系统评估了参数高效微调(PEFT)方法对大型语言模型(LLM)安全性与公平性的影响。研究选取了LoRA、IA3、Prompt-Tuning和P-Tuning四种PEFT方法,应用于Meta-Llama-3-8B、Qwen2.5-7B、Mistral-7B和Gemma-7B四个指令微调模型家族,共评估了235个微调变体,涵盖11个安全风险类别和9个人口统计公平性维度。结果表明,基于适配器的PEFT方法(LoRA、IA3)倾向于提高安全性,对公平性的干扰最小。相比之下,基于Prompt的PEFT方法(Prompt-Tuning和P-Tuning)通常会降低安全性,并导致更大的公平性退化。模型的对齐程度受基础模型类型的影响显著。研究结果建议,对于安全至关重要的部署,应选择对齐良好的基础模型,优先选择基于适配器的PEFT方法,并对安全性和公平性进行特定类别的审计。安全性提升并不一定带来公平性提升,且不存在能同时优化所有公平性指标的单一配置,表明两者之间存在固有的权衡。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)微调方法,虽然能够提升模型在特定下游任务上的性能,但同时也可能损害模型的安全性和公平性。不同的参数高效微调(PEFT)方法对这些关键维度的影响各不相同,因此需要系统地评估这些方法在效率与对齐之间的权衡。现有研究缺乏对不同PEFT方法在安全性和公平性方面的全面比较。

核心思路:该研究的核心思路是通过系统性的实验,对比分析不同PEFT方法对LLM安全性和公平性的影响。通过在多个LLM模型家族上应用不同的PEFT方法,并评估微调后的模型在多个安全风险类别和人口统计公平性维度上的表现,从而揭示不同PEFT方法在效率与对齐之间的权衡关系。研究旨在为实际部署提供指导,帮助选择合适的PEFT方法,以在提升性能的同时,尽可能地维护模型的安全性和公平性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择四个广泛使用的参数高效微调方法(LoRA、IA3、Prompt-Tuning和P-Tuning);2) 选择四个指令微调的LLM模型家族(Meta-Llama-3-8B、Qwen2.5-7B、Mistral-7B和Gemma-7B);3) 将不同的PEFT方法应用于不同的LLM模型家族,生成多个微调变体;4) 使用一系列评估指标,评估这些微调变体在11个安全风险类别和9个人口统计公平性维度上的表现;5) 分析实验结果,揭示不同PEFT方法在安全性和公平性方面的优缺点,以及不同基础模型对微调结果的影响。

关键创新:该研究的关键创新在于对多种PEFT方法在安全性和公平性方面的系统性评估。以往的研究主要关注PEFT方法在提升模型性能方面的效果,而忽略了它们对模型安全性和公平性的潜在影响。该研究通过大规模的实验,揭示了不同PEFT方法在安全性和公平性方面的差异,并指出了效率与对齐之间的权衡关系。此外,该研究还发现,基础模型的类型对微调结果有显著影响,这为选择合适的PEFT方法和基础模型提供了重要的参考。

关键设计:研究的关键设计包括:1) 选择了具有代表性的PEFT方法,包括基于适配器的方法(LoRA、IA3)和基于Prompt的方法(Prompt-Tuning、P-Tuning);2) 选择了不同架构和训练方式的LLM模型家族,以增加研究的泛化性;3) 使用了全面的评估指标,涵盖了多个安全风险类别和人口统计公平性维度;4) 采用了控制变量的方法,尽可能地减少了其他因素对实验结果的影响。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,基于适配器的PEFT方法(LoRA、IA3)通常能提高安全性,且对公平性的影响较小,而基于Prompt的PEFT方法(Prompt-Tuning和P-Tuning)则可能降低安全性和公平性。不同基础模型对微调的反应不同,例如LLaMA相对稳定,Gemma的安全性下降最明显。研究还发现,安全性的提升并不一定带来公平性的提升,两者之间存在权衡。

🎯 应用场景

该研究成果可应用于对安全性和公平性有较高要求的LLM部署场景,例如金融、医疗、法律等领域。通过选择合适的PEFT方法和基础模型,可以降低模型在这些领域中产生有害或不公平输出的风险。研究结果还可以为LLM的开发和微调提供指导,帮助开发者设计更安全、更公平的模型。

📄 摘要(原文)

Organizations are increasingly adopting and adapting Large Language Models (LLMs) hosted on public repositories such as HuggingFace. Although these adaptations often improve performance on specialized downstream tasks, recent evidence indicates that they can also degrade a model's safety or fairness. Since different fine-tuning techniques may exert distinct effects on these critical dimensions, this study undertakes a systematic assessment of their trade-offs. Four widely used Parameter-Efficient Fine-Tuning methods, LoRA, IA3, Prompt-Tuning, and P-Tuning, are applied to four instruction-tuned model families (Meta-Llama-3-8B, Qwen2.5-7B, Mistral-7B, and Gemma-7B). In total, 235 fine-tuned variants are evaluated across eleven safety hazard categories and nine demographic fairness dimensions. The results show that adapter-based approaches (LoRA, IA3) tend to improve safety scores and are the least disruptive to fairness, retaining higher accuracy and lower bias scores. In contrast, prompt-based methods (Prompt-Tuning and P-Tuning) generally reduce safety and cause larger fairness regressions, with decreased accuracy and increased bias. Alignment shifts are strongly moderated by base model type: LLaMA remains stable, Qwen records modest gains, Gemma experiences the steepest safety decline, and Mistral, which is released without an internal moderation layer, displays the greatest variance. Improvements in safety do not necessarily translate into improvements in fairness, and no single configuration optimizes all fairness metrics simultaneously, indicating an inherent trade-off between these objectives. These findings suggest a practical guideline for safety-critical deployments: begin with a well-aligned base model, favour adapter-based PEFT, and conduct category-specific audits of both safety and fairness.