Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler

📄 arXiv: 2510.27172v1 📥 PDF

作者: Zixuan Hu, Li Shen, Zhenyi Wang, Yongxian Wei, Dacheng Tao

分类: cs.LG, cs.AI

发布日期: 2025-10-31

🔗 代码/项目: GITHUB


💡 一句话要点

提出贝叶斯数据调度器(BDS),自适应防御大语言模型有害微调

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 有害微调防御 贝叶斯推断 自适应防御 数据调度

📋 核心要点

  1. 现有防御方法依赖攻击模拟,难以覆盖未知攻击,且对不同攻击场景的适应性不足。
  2. BDS将防御建模为贝叶斯推断,学习数据安全属性的后验分布,自适应调整数据权重。
  3. 实验表明,BDS在多种攻击和防御场景下表现出色,无需重新训练即可迁移到新数据。

📝 摘要(中文)

有害微调对大语言模型的微调即服务构成了严重的安全风险。现有的防御策略通过攻击模拟来预先构建鲁棒性,但存在根本性的局限性:(i)由于难以预测未知的攻击,因此无法将攻击模拟扩展到有界威胁模型之外;(ii)对变化的攻击设置的适应性有限,因为模拟无法捕捉到它们的可变性和复杂性。为了解决这些挑战,我们提出了一种无需攻击模拟的自适应微调阶段防御策略——贝叶斯数据调度器(BDS)。BDS将有害微调防御形式化为一个贝叶斯推断问题,学习每个数据点安全属性的后验分布,该分布以微调和对齐数据集为条件。然后,通过使用从后验分布中采样的安全属性对数据进行加权来约束微调过程,从而减轻有害数据的影响。通过利用贝叶斯推断的后验性质,后验分布以微调数据集为条件,使BDS能够根据特定数据集定制其防御,从而实现自适应防御。此外,我们引入了一种基于摊销贝叶斯学习的神经调度器,从而能够高效地迁移到新数据而无需重新训练。在各种攻击和防御设置下的全面结果证明了我们方法的先进性能。代码可在https://github.com/Egg-Hu/Bayesian-Data-Scheduler获得。

🔬 方法详解

问题定义:论文旨在解决大语言模型微调过程中,由于恶意数据注入导致的安全性问题。现有防御方法主要依赖于预先模拟攻击,但这种方法无法覆盖所有可能的攻击方式,并且难以适应不断变化的攻击场景。因此,如何设计一种能够自适应地防御未知攻击的微调策略是本文要解决的核心问题。

核心思路:论文的核心思路是将有害微调防御问题建模为一个贝叶斯推断问题。通过学习每个数据点安全属性的后验分布,并根据该分布对数据进行加权,从而降低有害数据的影响。这种方法的关键在于利用贝叶斯推断的后验性质,使得防御策略能够根据具体的微调数据集进行自适应调整。

技术框架:BDS的整体框架包含以下几个主要步骤:1) 数据安全属性建模:将每个数据点与一个安全属性相关联,该属性表示该数据点对模型安全性的影响程度。2) 后验分布学习:利用贝叶斯推断,学习每个数据点安全属性的后验分布,该分布以微调和对齐数据集为条件。3) 数据加权:根据从后验分布中采样的安全属性,对数据进行加权,从而降低有害数据的影响。4) 模型微调:使用加权后的数据对大语言模型进行微调。此外,论文还引入了一个基于摊销贝叶斯学习的神经调度器,用于高效地迁移到新数据。

关键创新:BDS的关键创新在于其自适应性。与传统的基于攻击模拟的防御方法不同,BDS不需要预先定义攻击模型,而是通过贝叶斯推断自适应地学习数据安全属性,从而能够防御未知的攻击。此外,BDS还引入了神经调度器,实现了高效的迁移学习,避免了对新数据进行重新训练的开销。

关键设计:论文的关键设计包括:1) 安全属性的建模方式:论文采用了一种二元变量来表示数据点的安全属性,即安全或有害。2) 后验分布的计算方法:论文使用变分推断来近似计算后验分布。3) 神经调度器的结构:论文设计了一个基于Transformer的神经调度器,用于预测数据点的安全属性。4) 损失函数的设计:论文设计了一个包含交叉熵损失和KL散度损失的损失函数,用于训练神经调度器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BDS在多种攻击场景下均优于现有防御方法,例如在针对LLaMA-2的有害微调攻击中,BDS能够显著降低模型的有害输出比例,同时保持模型的性能。此外,BDS的神经调度器能够高效地迁移到新数据,避免了重新训练的开销,进一步提升了其应用价值。

🎯 应用场景

BDS可应用于各种大语言模型微调即服务平台,有效防御恶意用户通过微调注入有害信息,保障模型安全性和可靠性。该方法还可扩展到其他机器学习模型的安全防御,具有广泛的应用前景和实际价值,有助于构建更安全可信的人工智能系统。

📄 摘要(原文)

Harmful fine-tuning poses critical safety risks to fine-tuning-as-a-service for large language models. Existing defense strategies preemptively build robustness via attack simulation but suffer from fundamental limitations: (i) the infeasibility of extending attack simulations beyond bounded threat models due to the inherent difficulty of anticipating unknown attacks, and (ii) limited adaptability to varying attack settings, as simulation fails to capture their variability and complexity. To address these challenges, we propose Bayesian Data Scheduler (BDS), an adaptive tuning-stage defense strategy with no need for attack simulation. BDS formulates harmful fine-tuning defense as a Bayesian inference problem, learning the posterior distribution of each data point's safety attribute, conditioned on the fine-tuning and alignment datasets. The fine-tuning process is then constrained by weighting data with their safety attributes sampled from the posterior, thus mitigating the influence of harmful data. By leveraging the post hoc nature of Bayesian inference, the posterior is conditioned on the fine-tuning dataset, enabling BDS to tailor its defense to the specific dataset, thereby achieving adaptive defense. Furthermore, we introduce a neural scheduler based on amortized Bayesian learning, enabling efficient transfer to new data without retraining. Comprehensive results across diverse attack and defense settings demonstrate the state-of-the-art performance of our approach. Code is available at https://github.com/Egg-Hu/Bayesian-Data-Scheduler.