One Token to Fool LLM-as-a-Judge
作者: Yulai Zhao, Haolin Liu, Dian Yu, Sunyuan Kung, Meijia Chen, Haitao Mi, Dong Yu
分类: cs.LG, cs.CL
发布日期: 2025-07-11 (更新: 2025-09-26)
🔗 代码/项目: HUGGINGFACE | HUGGINGFACE
💡 一句话要点
揭示LLM裁判的脆弱性:仅用单个token即可欺骗LLM奖励模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 奖励模型 对抗攻击 鲁棒性 数据增强 强化学习 LLM裁判
📋 核心要点
- 现有LLM裁判在奖励模型中存在漏洞,易受特定token(“主密钥”)攻击,导致错误奖励。
- 提出Master Reward Models (Master-RMs),通过使用截断模型输出作为对抗性负样本的数据增强策略,提高鲁棒性。
- 实验表明,Master-RMs在抵御“主密钥”攻击方面表现出最先进的鲁棒性,同时保持了标准评估中的高性能。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被信任为自动裁判,辅助评估并为训练其他模型提供奖励信号,尤其是在基于参考的设置中,例如具有可验证奖励的强化学习(RLVR)。然而,我们发现即使在这种基于参考的范例中也存在一个关键漏洞:生成式奖励模型系统性地容易受到奖励黑客攻击。我们发现,诸如非单词符号(例如“:”或“.”)或通用推理开头(例如“思考过程:”或“让我们逐步解决这个问题”)之类的表面输入,可以持续引出虚假的积极奖励,而无需任何实质性推理。我们的系统评估表明,这是一个广泛存在的失败,影响了包括GPT-o1和Claude-4等领先的专有系统在内的各种模型。这些结果挑战了LLM裁判的假定鲁棒性,并对其可靠性构成了重大威胁。为了解决这个问题,我们提出了一种简单而有效的数据增强策略,使用截断的模型输出作为对抗性负样本。由此产生的Master Reward Models(Master-RMs)在针对这些“主密钥”攻击方面表现出最先进的鲁棒性,同时在标准评估设置中保持了高性能。我们通过对跨模型规模、提示变化和常见推理时策略的漏洞进行全面分析来补充这些发现,从而为指导未来关于鲁棒LLM评估的研究提供见解。我们在https://huggingface.co/sarosavo/Master-RM和https://huggingface.co/datasets/sarosavo/Master-RM上发布了我们强大的通用领域奖励模型和合成训练数据。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)作为自动裁判时存在的安全漏洞问题。具体来说,研究发现现有的LLM奖励模型容易受到“主密钥”攻击,即通过输入特定的token序列(如标点符号或通用推理开头)就能轻易获得虚假的积极奖励。这种漏洞使得LLM裁判的可靠性受到质疑,尤其是在强化学习等依赖奖励信号的场景中。
核心思路:论文的核心思路是通过数据增强来提高奖励模型的鲁棒性。作者观察到,模型容易被“主密钥”欺骗是因为训练数据中缺乏包含这些token的负样本。因此,他们提出使用截断的模型输出来作为对抗性负样本,从而让模型学习区分真正的奖励和虚假奖励。
技术框架:整体框架包括以下几个步骤:1)收集原始训练数据;2)使用LLM生成输出;3)截断LLM输出,生成包含“主密钥”的负样本;4)将原始数据和生成的负样本混合,用于训练Master Reward Model (Master-RM)。
关键创新:最重要的创新点在于使用截断模型输出作为对抗性负样本的数据增强策略。这种方法简单有效,能够显著提高奖励模型对“主密钥”攻击的抵抗能力。与传统的对抗训练方法相比,该方法不需要复杂的梯度计算和优化过程,易于实现。
关键设计:关键设计在于如何生成有效的负样本。作者选择截断LLM的输出,保留包含“主密钥”的部分,并将其作为负样本。这种方法能够确保负样本与原始数据具有相似的分布,从而提高训练效果。此外,作者还探索了不同的截断策略和负样本比例,以优化模型的性能。
📊 实验亮点
实验结果表明,提出的Master-RMs在抵御“主密钥”攻击方面表现出最先进的鲁棒性,显著优于现有的LLM奖励模型。例如,在针对GPT-o1和Claude-4等模型的攻击中,Master-RMs能够有效降低虚假奖励的比例,同时保持在标准评估任务中的高性能。作者还进行了消融实验,验证了数据增强策略的有效性。
🎯 应用场景
该研究成果可应用于各种需要LLM作为裁判的场景,例如强化学习、文本生成评估、对话系统评估等。通过提高LLM裁判的鲁棒性,可以避免模型受到恶意攻击,确保评估结果的可靠性,从而提升相关应用的性能和安全性。未来的研究可以探索更复杂的对抗攻击方法和更有效的防御策略。
📄 摘要(原文)
Large language models (LLMs) are increasingly trusted as automated judges, assisting evaluation and providing reward signals for training other models, particularly in reference-based settings like Reinforcement Learning with Verifiable Rewards (RLVR). However, we uncover a critical vulnerability even in this reference-based paradigm: generative reward models are systematically susceptible to reward hacking. We find that superficial inputs, which we term ''master keys'' such as non-word symbols (e.g., '':'' or ''.'') or generic reasoning openers (e.g., ''Thought process:'' or ''Let's solve this problem step by step.''), can consistently elicit false positive rewards without any substantive reasoning. Our systematic evaluation demonstrates this is a widespread failure affecting a diverse range of models, including leading proprietary systems such as GPT-o1 and Claude-4. These results challenge the assumed robustness of LLM judges and pose a significant threat to their reliability. To address this, we propose a simple yet effective data augmentation strategy using truncated model outputs as adversarial negative examples. The resulting Master Reward Models (Master-RMs) demonstrate state-of-the-art robustness against these ''master key'' attacks while maintaining high performance in standard evaluation settings. We supplement these findings with a comprehensive analysis of the vulnerability across model scales, prompt variations, and common inference-time strategies, offering insights to guide future research on robust LLM evaluation. We release our robust, general-domain reward models and the synthetic training data at https://huggingface.co/sarosavo/Master-RM and https://huggingface.co/datasets/sarosavo/Master-RM.