Efficient Preference Poisoning Attack on Offline RLHF

📄 arXiv: 2605.02495v1 📥 PDF

作者: Chenye Yang, Weiyu Xu, Lifeng Lai

分类: cs.LG, cs.AI, stat.ML

发布日期: 2026-05-04


💡 一句话要点

提出高效偏好投毒攻击方法,针对离线RLHF中的DPO算法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线RLHF 偏好投毒攻击 直接偏好优化 二元稀疏逼近 格约简 匹配追踪 安全性 对抗攻击

📋 核心要点

  1. 离线RLHF依赖预收集的偏好数据集,易受偏好投毒攻击,现有方法缺乏对攻击效率的考量。
  2. 论文核心在于发现标签翻转对DPO梯度的影响,并将投毒问题转化为二元稀疏逼近问题。
  3. 实验验证了提出的BAL-A和BMP-A攻击方法在合成数据和真实数据集上的有效性,并分析了字典几何结构对攻击的影响。

📝 摘要(中文)

本文研究了针对离线人类反馈强化学习(RLHF)中直接偏好优化(DPO)的标签翻转攻击,该方法易受偏好投毒攻击的影响。研究表明,翻转一个偏好标签会在DPO梯度中引入一个与参数无关的偏移。利用这一关键特性,将目标投毒问题转化为一个结构化的二元稀疏逼近问题。为此,开发了两种攻击方法:二元感知格攻击(BAL-A)和二元匹配追踪攻击(BMP-A)。BAL-A将二元翻转选择问题嵌入到二元感知格中,并应用Lenstra-Lenstra-Lovász约简和Babai最近平面算法;提供了强制二元系数并恢复最小翻转目标的充分条件。BMP-A将二元匹配追踪应用于非归一化梯度字典,并产生基于相干性的恢复保证和$K$-翻转预算的鲁棒性(不可能性)证书。在合成字典和斯坦福人类偏好数据集上的实验验证了该理论,并强调了字典几何结构如何影响攻击的成功。

🔬 方法详解

问题定义:论文旨在解决离线RLHF中DPO算法的偏好投毒攻击问题。现有的DPO算法依赖于预先收集的偏好数据集,攻击者可以通过修改这些数据来影响模型的训练结果。现有的攻击方法可能效率不高,需要大量的样本翻转才能达到预期的攻击效果,或者缺乏理论上的保证。

核心思路:论文的核心思路是利用翻转单个偏好标签会在DPO梯度中引入一个与参数无关的偏移这一特性。通过控制这些偏移,可以将投毒攻击问题转化为一个结构化的二元稀疏逼近问题,即找到最少的标签翻转,使得模型学习到的策略向攻击者期望的方向偏移。这样设计的目的是为了提高攻击效率,减少攻击所需的样本数量。

技术框架:整体框架包括以下几个步骤:1) 分析标签翻转对DPO梯度的影响;2) 将投毒攻击问题转化为二元稀疏逼近问题;3) 设计BAL-A和BMP-A两种攻击方法来解决该问题;4) 在合成数据和真实数据集上进行实验验证。

关键创新:论文的关键创新在于:1) 发现了标签翻转对DPO梯度的参数无关偏移特性;2) 将投毒攻击问题转化为二元稀疏逼近问题,为高效攻击提供了理论基础;3) 提出了BAL-A和BMP-A两种攻击方法,分别利用格约简和匹配追踪算法来解决二元稀疏逼近问题。

关键设计:BAL-A的关键设计在于将二元翻转选择问题嵌入到二元感知格中,并利用Lenstra-Lenstra-Lovász (LLL) 约简和Babai最近平面算法来寻找最优解。BMP-A的关键设计在于将二元匹配追踪算法应用于非归一化梯度字典,并提供了基于相干性的恢复保证和鲁棒性证书。论文还分析了字典的几何结构对攻击成功的影响,并给出了相应的理论分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的BAL-A和BMP-A攻击方法在合成字典和斯坦福人类偏好数据集上均能有效地进行偏好投毒攻击。论文验证了字典几何结构对攻击成功的影响,并提供了相应的理论分析。具体性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于提升离线RLHF系统的安全性,例如,通过分析潜在的攻击向量,可以设计更鲁棒的训练算法,或者开发检测和防御偏好投毒攻击的机制。此外,该研究对于理解和防范其他机器学习系统中的数据投毒攻击也具有借鉴意义。

📄 摘要(原文)

Offline Reinforcement Learning from Human Feedback (RLHF) pipelines such as Direct Preference Optimization (DPO) train on a pre-collected preference dataset, which makes them vulnerable to preference poisoning attack. We study label flip attacks against log-linear DPO. We first illustrate that flipping one preference label induces a parameter-independent shift in the DPO gradient. Using this key property, we can then convert the targeted poisoning problem into a structured binary sparse approximation problem. To solve this problem, we develop two attack methods: Binary-Aware Lattice Attack (BAL-A) and Binary Matching Pursuit Attack (BMP-A). BAL-A embeds the binary flip selection problem into a binary-aware lattice and applies Lenstra-Lenstra-Lovász reduction and Babai's nearest plane algorithm; we provide sufficient conditions that enforce binary coefficients and recover the minimum-flip objective. BMP-A adapts binary matching pursuit to our non-normalized gradient dictionary and yields coherence-based recovery guarantees and robustness (impossibility) certificates for $K$-flip budgets. Experiments on synthetic dictionaries and the Stanford Human Preferences dataset validate the theory and highlight how dictionary geometry governs attack success.