AdvJudge-Zero: Binary Decision Flips in LLM-as-a-Judge via Adversarial Control Tokens
作者: Tung-Ling Li, Yuhao Wu, Hongliang Liu
分类: cs.LG, cs.CL, cs.CR
发布日期: 2025-12-19
💡 一句话要点
AdvJudge-Zero:通过对抗控制令牌翻转LLM评判器的二元决策
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: LLM评判器 对抗攻击 控制令牌 奖励黑客 对抗训练
📋 核心要点
- 现有奖励模型和LLM评判系统易受攻击,可能被精心设计的控制令牌序列欺骗,导致错误的二元决策。
- 提出AdvJudge-Zero方法,通过模型的下一个令牌分布和集束搜索,自动发现能够翻转评判结果的控制令牌序列。
- 实验表明,对抗训练可以有效降低控制令牌导致的假阳性率,同时保持评估质量。
📝 摘要(中文)
奖励模型和LLM评判系统是现代后训练流程(如RLHF、DPO和RLAIF)的核心,它们提供标量反馈和二元决策,指导模型选择和基于强化学习的微调。本文揭示了这些评判系统存在一个反复出现的漏洞:短序列的低困惑度控制令牌可以通过操纵最后一层logit gap,将许多二元评估从正确的“否”判断翻转为不正确的“是”判断。这些控制令牌是策略模型在后训练期间可能生成的模式,因此代表了实际的奖励黑客风险,而不是最坏情况下的对抗性字符串。我们的方法AdvJudge-Zero利用模型的下一个令牌分布和集束搜索探索从头开始发现各种控制令牌序列,并且我们的分析表明,诱导的隐藏状态扰动集中在一个低秩“软模式”中,该模式与评判器的拒绝方向反向对齐。经验表明,当大型开放权重和专用评判模型对数学和推理基准上的不正确答案进行评分时,这些令牌会导致非常高的假阳性率。最后,我们表明,在少量控制令牌增强示例上进行基于LoRA的对抗训练可以显着降低这些假阳性率,同时保持评估质量。
🔬 方法详解
问题定义:现有的基于LLM的评判系统在奖励模型和强化学习微调中扮演重要角色,但它们容易受到对抗性攻击。具体来说,论文关注的问题是,如何利用短序列的控制令牌来欺骗LLM评判器,使其将错误的答案判断为正确。现有方法缺乏有效识别和防御这些控制令牌的机制,导致评判结果的可靠性降低。
核心思路:论文的核心思路是通过寻找能够最大程度改变LLM最后一层logit gap的控制令牌序列,来欺骗评判器。这些控制令牌序列具有低困惑度,因此策略模型在训练过程中有可能生成它们,从而构成实际的奖励黑客风险。通过对抗训练,可以使评判器对这些控制令牌序列更加鲁棒。
技术框架:AdvJudge-Zero方法主要包含以下几个阶段:1) 利用LLM的下一个令牌分布和集束搜索,从头开始发现各种控制令牌序列。2) 分析这些控制令牌序列诱导的隐藏状态扰动,发现它们集中在一个低秩“软模式”中,该模式与评判器的拒绝方向反向对齐。3) 使用LoRA进行对抗训练,在少量控制令牌增强的示例上微调评判器。
关键创新:该论文的关键创新在于:1) 提出了一种自动发现能够欺骗LLM评判器的控制令牌序列的方法,这些控制令牌序列具有低困惑度,更具实际威胁。2) 揭示了这些控制令牌序列诱导的隐藏状态扰动集中在一个低秩“软模式”中,为理解LLM的脆弱性提供了新的视角。3) 证明了通过对抗训练可以有效防御这些控制令牌序列的攻击。
关键设计:在控制令牌序列的搜索过程中,使用了集束搜索来探索不同的令牌组合,并利用模型的下一个令牌分布来指导搜索方向。在对抗训练中,使用了LoRA来高效地微调评判器,并在损失函数中考虑了控制令牌序列的影响,以提高评判器的鲁棒性。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AdvJudge-Zero方法能够有效地发现能够欺骗LLM评判器的控制令牌序列,导致在数学和推理基准上出现非常高的假阳性率。通过在少量控制令牌增强示例上进行基于LoRA的对抗训练,可以显著降低这些假阳性率,同时保持评估质量。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于提高LLM评判系统的安全性与可靠性,尤其是在RLHF、DPO和RLAIF等后训练流程中。通过防御对抗性控制令牌的攻击,可以确保模型选择和微调过程的准确性,从而提升最终模型的性能和安全性。此外,该研究也为理解LLM的脆弱性提供了新的视角,有助于开发更鲁棒的LLM。
📄 摘要(原文)
Reward models and LLM-as-a-Judge systems are central to modern post-training pipelines such as RLHF, DPO, and RLAIF, where they provide scalar feedback and binary decisions that guide model selection and RL-based fine-tuning. We show that these judge systems exhibit a recurring vulnerability: short sequences of low-perplexity control tokens can flip many binary evaluations from correct
No'' judgments to incorrectYes'' judgments by steering the last-layer logit gap. These control tokens are patterns that a policy model could plausibly generate during post-training, and thus represent realistic reward-hacking risks rather than worst-case adversarial strings. Our method, AdvJudge-Zero, uses the model's next-token distribution and beam-search exploration to discover diverse control-token sequences from scratch, and our analysis shows that the induced hidden-state perturbations concentrate in a low-rank ``soft mode'' that is anti-aligned with the judge's refusal direction. Empirically, these tokens cause very high false positive rates when large open-weight and specialized judge models score incorrect answers on math and reasoning benchmarks. Finally, we show that LoRA-based adversarial training on small sets of control-token-augmented examples can markedly reduce these false positives while preserving evaluation quality.