Universal Adversarial Suffixes for Language Models Using Reinforcement Learning with Calibrated Reward

📄 arXiv: 2512.08131v1 📥 PDF

作者: Sampriti Soor, Suklav Ghosh, Arijit Sur

分类: cs.CL

发布日期: 2025-12-09

备注: 5 pages


💡 一句话要点

提出基于强化学习的通用对抗后缀方法,提升语言模型攻击的迁移性和有效性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对抗攻击 强化学习 语言模型 对抗后缀 自然语言处理

📋 核心要点

  1. 现有对抗后缀生成方法依赖梯度搜索或规则,泛化性差且易受任务和模型限制。
  2. 采用强化学习框架,将对抗后缀生成视为策略学习问题,提升攻击的通用性和鲁棒性。
  3. 实验证明,该方法生成的对抗后缀在多个任务和模型上均能有效降低模型准确率,优于现有方法。

📝 摘要(中文)

本文提出了一种基于强化学习的框架,用于生成能够可靠地改变语言模型预测的短对抗后缀。与以往使用梯度搜索或基于规则的方法不同,本文将后缀视为策略,并使用近端策略优化(Proximal Policy Optimization, PPO)算法,以冻结的语言模型作为奖励预言机进行训练。奖励函数通过校准的交叉熵进行塑造,消除了标签偏差并聚合了多种表面形式,从而提高了迁移性。该方法在五个不同的NLP基准数据集上进行了评估,涵盖情感分析、自然语言推理、释义和常识推理,并使用了三个不同的语言模型:Qwen2-1.5B Instruct、TinyLlama-1.1B Chat和Phi-1.5。结果表明,与之前类似类型的对抗触发器相比,通过强化学习训练的后缀能够持续降低准确率,并在任务和模型之间更有效地迁移。

🔬 方法详解

问题定义:现有方法生成的对抗后缀通常依赖于特定的任务和模型,迁移性较差。梯度搜索方法容易陷入局部最优,而基于规则的方法则难以适应复杂场景。因此,需要一种能够生成更通用、更鲁棒的对抗后缀的方法,以有效攻击各种语言模型。

核心思路:将对抗后缀的生成过程建模为一个强化学习问题。将后缀本身视为智能体的策略,通过与语言模型的交互来学习最优的后缀。通过精心设计的奖励函数,鼓励智能体生成能够有效改变模型预测的后缀,并提高其在不同任务和模型上的迁移能力。

技术框架:整体框架包括一个强化学习智能体和一个冻结的语言模型。智能体负责生成候选后缀,语言模型则作为奖励预言机,评估后缀的攻击效果。具体流程如下:1) 智能体根据当前策略生成一个后缀;2) 将该后缀添加到输入文本中,输入到冻结的语言模型;3) 语言模型给出预测结果;4) 根据预测结果和真实标签,计算奖励值;5) 智能体根据奖励值更新策略,重复以上步骤。

关键创新:主要创新在于使用强化学习来生成对抗后缀,并设计了校准的交叉熵奖励函数。强化学习能够探索更广阔的后缀空间,避免陷入局部最优。校准的交叉熵奖励函数能够消除标签偏差,提高后缀的迁移性。此外,通过聚合多种表面形式,进一步增强了后缀的鲁棒性。

关键设计:奖励函数的设计至关重要。本文使用了校准的交叉熵作为奖励函数,具体来说,首先计算模型预测的交叉熵损失,然后减去一个校准项,该校准项用于消除标签偏差。此外,为了提高后缀的鲁棒性,还对多种表面形式的奖励进行了聚合。智能体采用Proximal Policy Optimization (PPO) 算法进行训练,该算法能够稳定地更新策略,避免策略崩溃。

📊 实验亮点

实验结果表明,基于强化学习生成的对抗后缀在五个不同的NLP基准数据集上,能够有效降低三个不同语言模型的准确率。与之前的对抗触发器相比,该方法生成的后缀具有更好的迁移性,能够在不同的任务和模型之间进行有效攻击。例如,在某些任务上,准确率下降幅度超过10%。

🎯 应用场景

该研究成果可应用于评估和提高语言模型的安全性,防御对抗攻击。通过生成有效的对抗后缀,可以发现模型潜在的漏洞,并有针对性地进行防御。此外,该方法还可以用于生成更鲁棒的语言模型,提高其在对抗环境下的性能。该技术在信息安全、自然语言处理等领域具有重要的应用价值。

📄 摘要(原文)

Language models are vulnerable to short adversarial suffixes that can reliably alter predictions. Previous works usually find such suffixes with gradient search or rule-based methods, but these are brittle and often tied to a single task or model. In this paper, a reinforcement learning framework is used where the suffix is treated as a policy and trained with Proximal Policy Optimization against a frozen model as a reward oracle. Rewards are shaped using calibrated cross-entropy, removing label bias and aggregating across surface forms to improve transferability. The proposed method is evaluated on five diverse NLP benchmark datasets, covering sentiment, natural language inference, paraphrase, and commonsense reasoning, using three distinct language models: Qwen2-1.5B Instruct, TinyLlama-1.1B Chat, and Phi-1.5. Results show that RL-trained suffixes consistently degrade accuracy and transfer more effectively across tasks and models than previous adversarial triggers of similar genres.