Can In-Context Reinforcement Learning Recover From Reward Poisoning Attacks?

📄 arXiv: 2506.06891v2 📥 PDF

作者: Paulius Sasnauskas, Yiğit Yalın, Goran Radanović

分类: cs.LG, cs.CR

发布日期: 2025-06-07 (更新: 2025-09-26)


💡 一句话要点

提出对抗训练决策预训练Transformer,提升ICRL在奖励中毒攻击下的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 上下文强化学习 奖励中毒攻击 对抗训练 决策预训练Transformer 鲁棒性

📋 核心要点

  1. 现有的上下文强化学习方法容易受到奖励中毒攻击,导致性能下降甚至失效。
  2. 提出对抗训练框架AT-DPT,通过同时训练攻击者和防御者来提高模型的鲁棒性。
  3. 实验表明,AT-DPT在bandit和MDP环境中均优于现有鲁棒基线,具有良好的泛化能力。

📝 摘要(中文)

本文研究了上下文强化学习(ICRL)的抗腐败鲁棒性,重点关注决策预训练Transformer (DPT)。为了应对针对DPT的奖励中毒攻击,我们提出了一种新的对抗训练框架,称为对抗训练决策预训练Transformer (AT-DPT)。我们的方法同时训练一个攻击者,通过毒化环境奖励来最小化DPT的真实奖励,以及一个DPT模型,从中毒数据中推断出最优动作。我们评估了我们的方法在标准bandit算法(包括旨在处理奖励污染的鲁棒基线)上的有效性。结果表明,在学习到的攻击者下,所提出的方法显著优于这些bandit设置中的基线。此外,我们将评估扩展到自适应攻击者,并观察到类似的结果。此外,我们将评估扩展到MDP设置,证实了在bandit场景中观察到的鲁棒性可以推广到更复杂的环境。

🔬 方法详解

问题定义:论文旨在解决上下文强化学习(ICRL)中,决策预训练Transformer(DPT)在面对奖励中毒攻击时的脆弱性问题。现有的ICRL方法,特别是DPT,依赖于从上下文中学习策略,但当环境奖励被恶意篡改(奖励中毒)时,DPT的性能会显著下降,甚至无法学习到有效的策略。因此,如何提高ICRL模型在奖励中毒攻击下的鲁棒性是一个关键挑战。

核心思路:论文的核心思路是通过对抗训练来提高DPT的鲁棒性。具体来说,同时训练一个攻击者和一个防御者(DPT模型)。攻击者的目标是通过修改环境奖励来最大程度地降低DPT的真实奖励,而DPT的目标是从被攻击者修改过的奖励数据中学习到最优策略。这种对抗训练过程迫使DPT学习对奖励噪声和恶意篡改具有更强适应性的策略。

技术框架:整体框架包含两个主要部分:攻击者和防御者(AT-DPT)。攻击者是一个策略模型,它接收环境状态作为输入,并输出对奖励的修改量。防御者是DPT模型,它接收包含被修改奖励的上下文信息,并输出动作。训练过程交替进行:首先,固定DPT,训练攻击者以最大程度地降低DPT的真实奖励;然后,固定攻击者,训练DPT以最大程度地提高在被攻击奖励下的性能。

关键创新:最重要的创新点在于将对抗训练引入到ICRL的奖励中毒防御中。与传统的鲁棒强化学习方法不同,AT-DPT不是简单地对奖励进行过滤或加权,而是通过学习一个攻击者来模拟最坏情况下的奖励中毒,从而使DPT能够更好地适应各种类型的攻击。这种对抗训练的方式能够更有效地提高模型的鲁棒性。

关键设计:攻击者和DPT都使用Transformer架构。攻击者的目标函数是最小化DPT在真实奖励下的累积奖励,而DPT的目标函数是最大化在被攻击奖励下的累积奖励。训练过程使用交替优化算法,即先固定DPT训练攻击者,再固定攻击者训练DPT。论文还探索了不同的攻击策略,包括固定攻击者和自适应攻击者,以评估AT-DPT的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AT-DPT在bandit和MDP环境中均显著优于现有的鲁棒基线。在bandit环境中,AT-DPT在学习到的攻击者下,性能提升超过50%。即使面对自适应攻击者,AT-DPT仍然表现出良好的鲁棒性。此外,AT-DPT在MDP环境中的表现也证实了其在更复杂环境中的泛化能力。

🎯 应用场景

该研究成果可应用于对安全性要求较高的强化学习应用场景,例如自动驾驶、金融交易和医疗决策等。在这些场景中,恶意攻击者可能会篡改环境奖励,导致智能体做出错误的决策。通过提高ICRL模型在奖励中毒攻击下的鲁棒性,可以有效防止恶意攻击,确保智能体的安全性和可靠性。

📄 摘要(原文)

We study the corruption-robustness of in-context reinforcement learning (ICRL), focusing on the Decision-Pretrained Transformer (DPT, Lee et al., 2023). To address the challenge of reward poisoning attacks targeting the DPT, we propose a novel adversarial training framework, called Adversarially Trained Decision-Pretrained Transformer (AT-DPT). Our method simultaneously trains an attacker to minimize the true reward of the DPT by poisoning environment rewards, and a DPT model to infer optimal actions from the poisoned data. We evaluate the effectiveness of our approach against standard bandit algorithms, including robust baselines designed to handle reward contamination. Our results show that the proposed method significantly outperforms these baselines in bandit settings, under a learned attacker. We additionally evaluate AT-DPT on an adaptive attacker, and observe similar results. Furthermore, we extend our evaluation to the MDP setting, confirming that the robustness observed in bandit scenarios generalizes to more complex environments.