Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey

📄 arXiv: 2409.18169v5 📥 PDF

作者: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu

分类: cs.CR, cs.AI, cs.LG

发布日期: 2024-09-26 (更新: 2024-12-03)

🔗 代码/项目: GITHUB


💡 一句话要点

综述有害微调攻击与防御,应对大语言模型安全风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 有害微调攻击 安全对齐 威胁模型 防御策略 评估方法 综述

📋 核心要点

  1. 核心问题是“微调即服务”模式下,少量恶意数据微调可能破坏大语言模型的安全对齐,现有研究存在误解。
  2. 论文核心在于全面综述有害微调攻击的攻击设置、防御设计和评估方法,理清研究思路,促进领域发展。
  3. 论文整理了现有文献,并提出了未来研究方向,同时提供了一系列问题,帮助评估实验的真实性。

📝 摘要(中文)

最近的研究表明,新兴的“微调即服务”商业模式暴露了严重的安全问题——用户上传的少量有害数据微调可能破坏模型的安全对齐。这种攻击,被称为有害微调攻击,引起了社区的广泛研究兴趣。然而,由于这种攻击仍然很新,我们观察到研究社区存在普遍的误解。为了消除疑虑,本文全面概述了有害微调的三个方面:攻击设置、防御设计和评估方法。具体来说,我们首先介绍了问题的威胁模型,并介绍了有害微调攻击及其变体。然后,我们系统地调查了关于该问题的攻击/防御/机械分析的现有文献。最后,我们介绍了评估方法,并概述了可能有助于该领域发展的未来研究方向。此外,我们还提供了一系列感兴趣的问题,这些问题可能有助于同行评审过程中的评审员质疑实验/攻击/防御设置的真实性。相关论文的精选列表可在以下网址获取:https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers。

🔬 方法详解

问题定义:论文旨在解决大语言模型在“微调即服务”模式下,由于用户上传的少量有害数据进行微调而导致的安全对齐被破坏的问题。现有方法对该问题的理解存在偏差,缺乏系统的分析和评估框架,难以有效应对潜在的安全风险。

核心思路:论文的核心思路是通过对现有研究进行系统性的梳理和总结,全面分析有害微调攻击的威胁模型、攻击变体、防御策略和评估方法,从而为研究人员提供清晰的指导,并促进该领域的发展。论文强调了对攻击设置、防御设计和评估方法三个关键方面的深入理解。

技术框架:论文采用综述的形式,没有提出新的技术框架。其主要工作流程包括:1) 定义有害微调攻击的威胁模型;2) 介绍有害微调攻击及其变体;3) 系统性地调研现有文献,涵盖攻击、防御和机制分析;4) 介绍评估方法;5) 提出未来研究方向。

关键创新:论文的主要创新在于其系统性和全面性。它首次对有害微调攻击进行了全面的综述,涵盖了攻击设置、防御设计和评估方法等多个方面。此外,论文还提出了未来研究方向,并提供了一系列问题,帮助评估实验的真实性,这对于推动该领域的发展具有重要意义。

关键设计:由于是综述论文,没有具体的参数设置、损失函数或网络结构等技术细节。论文的关键设计在于其对现有文献的分类和整理,以及对未来研究方向的展望。论文通过对不同攻击和防御策略的分析,总结了它们的优缺点,并提出了改进的方向。此外,论文还强调了评估方法的重要性,并提供了一系列问题,帮助研究人员设计更具真实性和可靠性的实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文最重要的亮点在于其对有害微调攻击的全面综述,涵盖了攻击设置、防御设计和评估方法三个关键方面。论文整理了大量相关文献,并提出了未来研究方向,为研究人员提供了宝贵的参考。此外,论文还提供了一系列问题,帮助评估实验的真实性,这对于提高研究质量具有重要意义。

🎯 应用场景

该研究成果可应用于大语言模型安全风险评估、防御策略设计和安全微调服务构建等领域。通过系统性地理解有害微调攻击,可以更好地保护大语言模型免受恶意攻击,确保其安全可靠地应用于各种场景,例如智能客服、内容生成和教育辅助等。

📄 摘要(原文)

Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning attack, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe that there are general misunderstandings within the research community.} To clear up concern, this paper provide a comprehensive overview to three aspects of harmful fine-tuning: attacks setting, defense design and evaluation methodology. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we introduce the evaluation methodology and outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers.