Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges
作者: Francisco Eiras, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan
分类: cs.LG, cs.CR
发布日期: 2025-03-06
备注: Accepted to the ICBINB Workshop at ICLR'25
💡 一句话要点
评估LLM安全评判器的鲁棒性:揭示提示敏感性和对抗攻击下的脆弱性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM安全 鲁棒性评估 对抗攻击 提示敏感性 安全评判器
📋 核心要点
- 现有LLM安全评判器在实际应用中易受提示敏感性和分布偏移的影响,鲁棒性不足。
- 通过研究常用安全评判器,揭示其在对抗攻击下的脆弱性,强调元评估基准的差距。
- 实验表明,微小变化如输出风格会导致假阴性率显著变化,对抗攻击可完全欺骗部分评判器。
📝 摘要(中文)
基于大型语言模型(LLM)的安全评判器是离线基准测试、自动化红队测试和在线防护等关键安全评估流程的基础。这种广泛的需求提出了一个关键问题:我们能信任这些评估者的评估吗?本文强调了两个通常被忽视的关键挑战:(i)实际应用中的评估,其中提示敏感性和分布偏移等因素会影响性能;(ii)针对评判器的对抗攻击。通过对常用安全评判器的研究,我们强调了这些问题的重要性,表明模型输出风格等微小变化会导致同一数据集上的假阴性率跃升高达0.24,而对模型生成的对抗攻击可以欺骗某些评判器,将100%的有害生成错误地分类为安全生成。这些发现揭示了常用元评估基准中的差距以及当前LLM评判器鲁棒性的弱点,表明在某些评判器下较低的攻击成功率可能会产生虚假的安全感。
🔬 方法详解
问题定义:论文旨在解决LLM安全评判器在实际应用中鲁棒性不足的问题。现有方法在评估LLM安全性时,往往忽略了评判器本身可能存在的漏洞,例如对提示的敏感性以及容易受到对抗攻击的影响。这种疏忽可能导致对LLM安全性的错误评估,产生虚假的安全感。
核心思路:论文的核心思路是通过系统性的实验,评估现有LLM安全评判器在不同场景下的鲁棒性。具体来说,论文研究了提示风格变化和对抗攻击对评判器性能的影响,从而揭示评判器自身的弱点。通过量化这些弱点,可以更好地理解LLM安全评估的局限性,并为开发更鲁棒的评判器提供指导。
技术框架:论文的技术框架主要包括以下几个部分:首先,选择常用的LLM安全评判器作为研究对象。其次,设计实验来评估评判器对提示风格变化的敏感性,例如改变模型输出的格式或措辞。然后,构建对抗攻击,试图欺骗评判器将有害内容错误地分类为安全内容。最后,分析实验结果,量化评判器的鲁棒性,并识别其弱点。
关键创新:论文的关键创新在于强调了LLM安全评判器自身的鲁棒性问题,并提出了系统性的评估方法。以往的研究主要关注如何提高LLM的安全性,而忽略了评估工具本身的可靠性。论文的研究表明,即使LLM本身是安全的,如果评判器存在漏洞,也可能导致错误的评估结果。
关键设计:论文的关键设计包括:(1) 提示风格变化实验,通过改变模型输出的格式和措辞,评估评判器对提示的敏感性。(2) 对抗攻击实验,通过生成对抗样本,试图欺骗评判器将有害内容错误地分类为安全内容。对抗攻击的具体实现方式未知,论文中可能没有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型输出风格的微小变化会导致假阴性率跃升高达0.24,而对抗攻击可以欺骗某些评判器,将100%的有害生成错误地分类为安全生成。这些数据清晰地揭示了现有LLM安全评判器的脆弱性,并强调了提高评判器鲁棒性的重要性。
🎯 应用场景
该研究成果可应用于LLM安全评估流程的改进,例如在离线基准测试、自动化红队测试和在线防护中,需要更加关注评判器本身的鲁棒性。通过使用更鲁棒的评判器或对现有评判器进行加固,可以提高LLM安全评估的准确性和可靠性,从而降低LLM被恶意利用的风险。
📄 摘要(原文)
Large Language Model (LLM) based judges form the underpinnings of key safety evaluation processes such as offline benchmarking, automated red-teaming, and online guardrailing. This widespread requirement raises the crucial question: can we trust the evaluations of these evaluators? In this paper, we highlight two critical challenges that are typically overlooked: (i) evaluations in the wild where factors like prompt sensitivity and distribution shifts can affect performance and (ii) adversarial attacks that target the judge. We highlight the importance of these through a study of commonly used safety judges, showing that small changes such as the style of the model output can lead to jumps of up to 0.24 in the false negative rate on the same dataset, whereas adversarial attacks on the model generation can fool some judges into misclassifying 100% of harmful generations as safe ones. These findings reveal gaps in commonly used meta-evaluation benchmarks and weaknesses in the robustness of current LLM judges, indicating that low attack success under certain judges could create a false sense of security.