Policy Teaching via Data Poisoning in Learning from Human Preferences

📄 arXiv: 2503.10228v1 📥 PDF

作者: Andi Nika, Jonathan Nöther, Debmalya Mandal, Parameswaran Kamalaruban, Adish Singla, Goran Radanović

分类: cs.LG

发布日期: 2025-03-13

备注: In AISTATS 2025


💡 一句话要点

通过数据中毒攻击实现人类偏好的策略教学

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据中毒 人类偏好学习 强化学习 直接偏好优化 策略教学 安全性分析

📋 核心要点

  1. 现有的基于人类偏好的学习方法在面对数据中毒攻击时存在易感性,攻击者可以通过合成偏好数据来影响学习结果。
  2. 论文提出了一种通用的数据中毒框架,分析了在强化学习和直接偏好优化中,攻击者如何通过偏好数据来强制执行目标策略。
  3. 通过理论分析,论文提供了强制执行目标策略所需样本数量的上下界,揭示了不同学习范式的脆弱性。

📝 摘要(中文)

本研究探讨了在学习人类偏好的过程中,数据中毒攻击的影响。具体而言,我们考虑通过合成偏好数据来教学或强制执行目标策略 $π^ ag{dagger}$ 的问题。我们分析了不同基于偏好的学习范式对中毒偏好数据的易感性,研究了攻击者需要多少样本来强制执行 $π^ ag{dagger}$。我们首先提出了一种通用的数据中毒公式,并针对两种流行的学习范式进行了研究:强化学习中的人类反馈(RLHF)和直接偏好优化(DPO)。我们进行了理论分析,提供了强制执行 $π^ ag{dagger}$ 所需样本数量的上下界,并讨论了这些结果对学习范式在数据中毒攻击下的易感性影响。

🔬 方法详解

问题定义:本论文旨在解决在学习人类偏好的过程中,如何通过数据中毒攻击来影响策略的执行。现有方法在面对恶意数据时,缺乏有效的防御机制,导致策略易受攻击。

核心思路:论文的核心思路是通过合成偏好数据来教学目标策略 $π^ ag{dagger}$,并分析不同学习范式对这种攻击的易感性。通过理论分析,我们能够量化攻击者所需的样本数量,从而评估学习系统的脆弱性。

技术框架:整体架构包括两个主要阶段:首先,攻击者通过合成或增强现有数据集来生成中毒偏好数据;其次,学习算法在这些中毒数据上进行训练,最终评估策略的执行效果。

关键创新:最重要的技术创新在于提出了一种通用的数据中毒公式,并针对两种流行的学习范式(RLHF和DPO)进行了深入分析。这种方法使得我们能够系统地理解不同学习方法在数据中毒攻击下的表现。

关键设计:在实验中,设置了不同的参数以模拟攻击者的行为,并设计了损失函数来评估策略的有效性。通过理论推导,我们得到了强制执行目标策略所需样本数量的上下界,提供了对比分析的基础。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在特定设置下,攻击者只需少量样本即可有效地强制执行目标策略 $π^ ag{dagger}$。与传统方法相比,论文提供的上下界分析显著提高了对学习范式脆弱性的理解,为未来的防御机制设计提供了重要参考。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、推荐系统和人机交互等场景。在这些领域中,系统需要从人类反馈中学习并优化决策,而数据中毒攻击可能会导致严重的安全隐患。通过理解这些攻击的机制,可以为构建更安全的学习系统提供理论基础和实践指导。

📄 摘要(原文)

We study data poisoning attacks in learning from human preferences. More specifically, we consider the problem of teaching/enforcing a target policy $π^\dagger$ by synthesizing preference data. We seek to understand the susceptibility of different preference-based learning paradigms to poisoned preference data by analyzing the number of samples required by the attacker to enforce $π^\dagger$. We first propose a general data poisoning formulation in learning from human preferences and then study it for two popular paradigms, namely: (a) reinforcement learning from human feedback (RLHF) that operates by learning a reward model using preferences; (b) direct preference optimization (DPO) that directly optimizes policy using preferences. We conduct a theoretical analysis of the effectiveness of data poisoning in a setting where the attacker is allowed to augment a pre-existing dataset and also study its special case where the attacker can synthesize the entire preference dataset from scratch. As our main results, we provide lower/upper bounds on the number of samples required to enforce $π^\dagger$. Finally, we discuss the implications of our results in terms of the susceptibility of these learning paradigms under such data poisoning attacks.