Security in LLM-as-a-Judge: A Comprehensive SoK

📄 arXiv: 2603.29403v1 📥 PDF

作者: Aiman Almasoud, Antony Anju, Marco Arazzi, Mert Cihangiroglu, Vignesh Kumar Kembu, Serena Nicolazzo, Antonino Nocera, Vinod P., Saraga Sakthidharan

分类: cs.CR, cs.AI

发布日期: 2026-03-31


💡 一句话要点

首个LLM-as-a-Judge安全知识体系化研究,揭示潜在风险与防御策略。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: LLM-as-a-Judge 安全风险 对抗性攻击 知识体系化 文献综述

📋 核心要点

  1. 现有基于LLM的评估方法缺乏对安全风险的充分考虑,易受对抗性攻击,影响评估结果的可靠性。
  2. 本文构建了LLM-as-a-Judge安全领域的知识体系,分析了攻击、防御和应用,并提出了相应的分类。
  3. 通过对大量文献的分析,揭示了LLM评估框架的潜在漏洞,并指出了未来研究方向,以提升其安全性。

📝 摘要(中文)

LLM-as-a-Judge (LaaJ) 是一种新兴范式,它利用强大的语言模型来评估生成输出的质量、安全性和正确性。虽然这种范式显著提高了评估过程的可扩展性和效率,但也引入了新的安全风险和可靠性问题,这些问题在很大程度上尚未被探索。特别是,基于LLM的评判者可能成为对抗性操纵的目标和攻击的工具,从而可能损害评估流程的可信度。本文提出了第一个侧重于LLM-as-a-Judge系统安全方面的知识体系化研究(SoK)。我们对主要学术数据库进行了全面的文献综述,分析了863篇著作,并选择了2020年至2026年间发表的45篇相关研究。基于这项研究,我们提出了一个分类法,根据LLM-as-a-Judge在安全领域中扮演的角色来组织最近的研究,区分了针对LaaJ系统的攻击、通过LaaJ执行的攻击、利用LaaJ进行安全防御以及LaaJ在安全相关领域用作评估策略的应用。我们进一步对现有方法进行了比较分析,强调了当前的局限性、新兴威胁和开放的研究挑战。我们的发现揭示了基于LLM的评估框架中的重大漏洞,以及提高其鲁棒性和可靠性的有希望的方向。最后,我们概述了关键的研究机会,这些机会可以指导开发更安全和可信的LLM-as-a-Judge系统。

🔬 方法详解

问题定义:论文旨在解决LLM-as-a-Judge (LaaJ) 系统中存在的安全问题。现有方法主要关注LaaJ在评估方面的应用,而忽略了其作为攻击目标或攻击媒介的潜在风险。这些风险包括对抗性攻击、数据泄露等,可能导致评估结果失真,甚至被恶意利用。现有研究缺乏对这些安全问题的系统性分析和分类。

核心思路:论文的核心思路是对LLM-as-a-Judge的安全问题进行全面的知识体系化 (SoK)。通过系统性的文献回顾和分析,识别LaaJ在安全领域扮演的不同角色,包括攻击目标、攻击工具、防御手段和评估策略。基于这些角色,构建一个分类法,将现有研究进行归类,并分析其优缺点。

技术框架:论文采用文献综述的方法,对大量相关研究进行筛选和分析。具体流程包括:1) 在主要学术数据库中搜索相关文献;2) 根据预定义的标准筛选出相关研究;3) 对筛选出的研究进行分类,并分析其方法、结果和局限性;4) 基于分析结果,构建LLM-as-a-Judge安全领域的知识体系。

关键创新:论文最重要的创新点在于首次对LLM-as-a-Judge的安全问题进行了系统性的知识体系化研究。通过构建分类法,将现有研究进行归类,并分析其优缺点,为后续研究提供了清晰的框架和方向。此外,论文还识别了LLM-as-a-Judge系统中存在的潜在漏洞和新兴威胁,为开发更安全的LLM评估框架提供了重要参考。

关键设计:论文的关键设计在于其分类法,该分类法根据LLM-as-a-Judge在安全领域扮演的角色,将研究分为四类:1) 针对LaaJ系统的攻击;2) 通过LaaJ执行的攻击;3) 利用LaaJ进行安全防御;4) LaaJ在安全相关领域用作评估策略。这种分类方法能够清晰地展示LLM-as-a-Judge在安全领域中的不同应用,并帮助研究人员更好地理解其潜在风险和防御策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过分析863篇文献,筛选出45篇相关研究,揭示了LLM-as-a-Judge系统中存在的多种安全漏洞,并提出了相应的防御策略。研究结果表明,现有的LLM评估框架存在显著的安全风险,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于各种需要使用LLM进行评估的场景,例如代码生成、文本摘要、机器翻译等。通过提升LLM评估框架的安全性,可以提高评估结果的可靠性,防止恶意攻击和数据泄露。该研究还有助于开发更安全、更可信的AI系统。

📄 摘要(原文)

LLM-as-a-Judge (LaaJ) is a novel paradigm in which powerful language models are used to assess the quality, safety, or correctness of generated outputs. While this paradigm has significantly improved the scalability and efficiency of evaluation processes, it also introduces novel security risks and reliability concerns that remain largely unexplored. In particular, LLM-based judges can become both targets of adversarial manipulation and instruments through which attacks are conducted, potentially compromising the trustworthiness of evaluation pipelines. In this paper, we present the first Systematization of Knowledge (SoK) focusing on the security aspects of LLM-as-a-Judge systems. We perform a comprehensive literature review across major academic databases, analyzing 863 works and selecting 45 relevant studies published between 2020 and 2026. Based on this study, we propose a taxonomy that organizes recent research according to the role played by LLM-as-a-Judge in the security landscape, distinguishing between attacks targeting LaaJ systems, attacks performed through LaaJ, defenses leveraging LaaJ for security purposes, and applications where LaaJ is used as an evaluation strategy in security-related domains. We further provide a comparative analysis of existing approaches, highlighting current limitations, emerging threats, and open research challenges. Our findings reveal significant vulnerabilities in LLM-based evaluation frameworks, as well as promising directions for improving their robustness and reliability. Finally, we outline key research opportunities that can guide the development of more secure and trustworthy LLM-as-a-Judge systems.