Adversarial Preference Learning for Robust LLM Alignment

📄 arXiv: 2505.24369v1 📥 PDF

作者: Yuanfu Wang, Pengyu Wang, Chenyang Xi, Bo Tang, Junyi Zhu, Wenqiang Wei, Chen Chen, Chao Yang, Jingfeng Zhang, Chaochao Lu, Yijun Niu, Keming Mao, Zhiyu Li, Feiyu Xiong, Jie Hu, Mingchuan Yang

分类: cs.LG, cs.AI

发布日期: 2025-05-30

备注: Accepted at ACL2025 Findings


💡 一句话要点

提出对抗偏好学习(APL)以提升LLM对对抗攻击的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对抗偏好学习 LLM对齐 对抗攻击 鲁棒性 强化学习 安全AI 有害性评估

📋 核心要点

  1. 现有RLHF方法在对齐LLM安全行为时,面临人工标注成本高、对抗攻击多样、反馈偏差和奖励黑客等挑战。
  2. 论文提出对抗偏好学习(APL),通过内在偏好概率、条件生成攻击器和迭代闭环反馈来提升LLM的鲁棒性。
  3. 实验表明,APL显著提升了LLM的无害性,降低了有害输出比例和攻击成功率,同时保持了模型效用。

📝 摘要(中文)

现代语言模型通常依赖于人类反馈强化学习(RLHF)来鼓励安全行为。然而,由于三个关键限制,它们仍然容易受到对抗攻击:(1)人工标注的低效率和高成本,(2)潜在对抗攻击的巨大多样性,以及(3)反馈偏差和奖励黑客的风险。为了应对这些挑战,我们引入了对抗偏好学习(APL),这是一种迭代的对抗训练方法,包含三个关键创新。首先,一种基于模型内在偏好概率的直接有害性指标,消除了对外部评估的依赖。其次,一种条件生成攻击器,可以合成特定于输入的对抗变体。第三,一个具有自动闭环反馈的迭代框架,能够通过漏洞发现和缓解进行持续适应。在Mistral-7B-Instruct-v0.3上的实验表明,APL显著提高了鲁棒性,相对于基础模型实现了83.33%的无害性胜率(由GPT-4o评估),将有害输出从5.88%降低到0.43%(由LLaMA-Guard测量),并根据HarmBench将攻击成功率降低了高达65%。值得注意的是,APL保持了具有竞争力的效用,MT-Bench得分为6.59(与基线6.78相当),LC-WinRate为46.52%(相对于基础模型)。

🔬 方法详解

问题定义:现有基于RLHF的LLM对齐方法,在面对对抗攻击时鲁棒性不足。主要痛点在于人工标注成本高昂,难以覆盖所有可能的攻击方式,且容易受到反馈偏差和奖励黑客的影响。因此,如何高效、自动地提升LLM的对抗鲁棒性是一个关键问题。

核心思路:论文的核心思路是通过对抗训练,让LLM在面对恶意攻击时也能保持安全和无害。关键在于设计一个能够自动生成对抗样本并进行迭代训练的框架,从而避免对大量人工标注的依赖。同时,利用模型自身的偏好信息来评估有害性,减少外部评估带来的偏差。

技术框架:APL框架包含三个主要模块:(1)有害性度量模块,基于模型内在偏好概率直接评估有害性,无需外部评估;(2)条件生成攻击器,根据输入生成特定的对抗变体,增加攻击的多样性;(3)迭代训练模块,通过自动闭环反馈,不断发现和缓解模型漏洞。整个流程是一个迭代过程,攻击器不断生成新的对抗样本,模型则不断学习防御这些攻击。

关键创新:APL的关键创新在于:(1)使用模型内在偏好概率作为有害性度量,避免了对外部评估的依赖,降低了标注成本和偏差;(2)设计了条件生成攻击器,能够根据输入自适应地生成对抗样本,提高了攻击的多样性和有效性;(3)构建了迭代闭环反馈框架,实现了自动化的对抗训练,能够持续提升模型的鲁棒性。与现有方法相比,APL更加高效、自动化,并且能够更好地适应不断变化的对抗攻击。

关键设计:有害性度量基于模型输出的概率分布,通过计算模型对有害行为的偏好程度来判断。条件生成攻击器可能采用了某种生成模型(具体模型未知),以输入为条件生成对抗样本。迭代训练过程可能涉及特定的优化算法和损失函数,以最小化模型对对抗样本的有害性偏好。具体的参数设置和网络结构细节在论文中可能有所描述,但此处信息不足,无法详细说明。

🖼️ 关键图片

img_0

📊 实验亮点

APL在Mistral-7B-Instruct-v0.3上进行了实验,结果表明,APL相对于基础模型实现了83.33%的无害性胜率(由GPT-4o评估),将有害输出从5.88%降低到0.43%(由LLaMA-Guard测量),并根据HarmBench将攻击成功率降低了高达65%。同时,APL保持了与基线相当的效用,MT-Bench得分为6.59,LC-WinRate为46.52%。

🎯 应用场景

该研究成果可应用于提升各类LLM的安全性,尤其是在需要高度可靠性和安全性的场景,如医疗诊断、金融风控、法律咨询等。通过对抗训练,可以有效降低LLM在恶意攻击下的风险,保障用户安全和数据安全,促进LLM的广泛应用。

📄 摘要(原文)

Modern language models often rely on Reinforcement Learning from Human Feedback (RLHF) to encourage safe behaviors. However, they remain vulnerable to adversarial attacks due to three key limitations: (1) the inefficiency and high cost of human annotation, (2) the vast diversity of potential adversarial attacks, and (3) the risk of feedback bias and reward hacking. To address these challenges, we introduce Adversarial Preference Learning (APL), an iterative adversarial training method incorporating three key innovations. First, a direct harmfulness metric based on the model's intrinsic preference probabilities, eliminating reliance on external assessment. Second, a conditional generative attacker that synthesizes input-specific adversarial variations. Third, an iterative framework with automated closed-loop feedback, enabling continuous adaptation through vulnerability discovery and mitigation. Experiments on Mistral-7B-Instruct-v0.3 demonstrate that APL significantly enhances robustness, achieving 83.33% harmlessness win rate over the base model (evaluated by GPT-4o), reducing harmful outputs from 5.88% to 0.43% (measured by LLaMA-Guard), and lowering attack success rate by up to 65% according to HarmBench. Notably, APL maintains competitive utility, with an MT-Bench score of 6.59 (comparable to the baseline 6.78) and an LC-WinRate of 46.52% against the base model.