Security in LLM-as-a-Judge: A Comprehensive SoK

📄 arXiv: 2603.29403 📥 PDF

作者: Aiman Al Masoud, Antony Anju, Marco Arazzi, Mert Cihangiroglu, Vignesh Kumar Kembu, Serena Nicolazzo, Antonino Nocera, Vinod P., Saraga Sakthidharan

分类: cs.CR, cs.AI

发布日期: 2026-04-07


💡 一句话要点

首个LLM-as-a-Judge安全综述,揭示潜在风险并探索防御策略。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: LLM-as-a-Judge 安全风险 对抗性攻击 知识体系化 漏洞分析

📋 核心要点

  1. 现有基于LLM的评估方法缺乏对安全风险的充分考虑,易受对抗性攻击。
  2. 本文构建了LLM-as-a-Judge安全领域的知识体系,分析了攻击、防御和应用。
  3. 通过文献综述,揭示了LLM评估框架的漏洞,并提出了改进鲁棒性的方向。

📝 摘要(中文)

LLM-as-a-Judge (LaaJ) 是一种新兴范式,它利用强大的语言模型来评估生成输出的质量、安全性和正确性。虽然这种范式显著提高了评估过程的可扩展性和效率,但也引入了新的安全风险和可靠性问题,这些问题在很大程度上尚未得到探索。特别是,基于LLM的评判者可能成为对抗性操纵的目标和攻击的工具,从而可能损害评估管道的可信度。本文提出了第一个侧重于LLM-as-a-Judge系统安全方面的知识体系化(SoK)。我们对主要学术数据库进行了全面的文献综述,分析了863篇著作,并选择了2020年至2026年间发表的45篇相关研究。基于这项研究,我们提出了一个分类法,根据LLM-as-a-Judge在安全领域中所扮演的角色来组织最近的研究,区分了针对LaaJ系统的攻击、通过LaaJ执行的攻击、利用LaaJ进行安全防御以及LaaJ在安全相关领域用作评估策略的应用。我们进一步对现有方法进行了比较分析,强调了当前的局限性、新兴威胁和开放的研究挑战。我们的发现揭示了基于LLM的评估框架中的重大漏洞,以及改进其鲁棒性和可靠性的有希望的方向。最后,我们概述了可以指导开发更安全和可信的LLM-as-a-Judge系统的关键研究机会。

🔬 方法详解

问题定义:论文旨在解决LLM-as-a-Judge(LaaJ)系统在安全方面面临的挑战。现有方法主要关注LaaJ的效率和准确性,而忽略了其潜在的安全风险,例如对抗性攻击和恶意利用。这些风险可能导致评估结果的偏差,甚至被用于发起新的攻击。

核心思路:论文的核心思路是对LaaJ的安全问题进行系统性的梳理和分析,构建一个全面的知识体系。通过分析现有研究,识别LaaJ系统面临的各种攻击方式、防御策略以及在安全领域的应用,从而为未来的研究提供指导。

技术框架:论文采用系统化知识(SoK)的方法,对相关文献进行全面的回顾和分析。主要包括以下几个阶段:1) 文献收集:从主要学术数据库中收集相关论文;2) 文献筛选:根据相关性选择45篇论文进行深入分析;3) 分类体系构建:根据LaaJ在安全领域扮演的角色,将研究分为攻击LaaJ、通过LaaJ攻击、利用LaaJ防御和LaaJ在安全领域的应用四个类别;4) 比较分析:对现有方法进行比较分析,识别局限性、威胁和挑战;5) 研究机会识别:提出未来研究方向。

关键创新:论文最重要的创新点在于首次对LLM-as-a-Judge的安全问题进行了系统性的研究和总结,构建了一个全面的知识体系。与现有方法相比,该研究不仅关注LaaJ的性能,更关注其安全性,为未来的研究提供了新的视角和方向。

关键设计:论文的关键设计在于其分类体系,该体系将LaaJ在安全领域中的角色进行了明确的划分,从而能够更清晰地理解LaaJ面临的安全风险和潜在的防御策略。此外,论文还对现有方法进行了比较分析,识别了当前的局限性和未来的研究方向。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究分析了863篇相关文献,并从中选择了45篇进行深入研究,揭示了LLM-as-a-Judge系统中的多种安全漏洞。通过构建分类体系,清晰地展示了LaaJ在安全领域中的角色和面临的挑战。研究结果为未来的研究提供了重要的参考,并指出了改进LaaJ系统鲁棒性的方向。

🎯 应用场景

该研究成果可应用于提升基于LLM的评估系统的安全性,例如代码生成评估、文本摘要质量评估等。通过识别和防御针对LaaJ的攻击,可以提高评估结果的可靠性,从而促进人工智能技术的安全发展。此外,该研究还可以指导开发更安全的LLM应用,例如安全漏洞检测和恶意代码分析。

📄 摘要(原文)

LLM-as-a-Judge (LaaJ) is a novel paradigm in which powerful language models are used to assess the quality, safety, or correctness of generated outputs. While this paradigm has significantly improved the scalability and efficiency of evaluation processes, it also introduces novel security risks and reliability concerns that remain largely unexplored. In particular, LLM-based judges can become both targets of adversarial manipulation and instruments through which attacks are conducted, potentially compromising the trustworthiness of evaluation pipelines. In this paper, we present the first Systematization of Knowledge (SoK) focusing on the security aspects of LLM-as-a-Judge systems. We perform a comprehensive literature review across major academic databases, analyzing 863 works and selecting 45 relevant studies published between 2020 and 2026. Based on this study, we propose a taxonomy that organizes recent research according to the role played by LLM-as-a-Judge in the security landscape, distinguishing between attacks targeting LaaJ systems, attacks performed through LaaJ, defenses leveraging LaaJ for security purposes, and applications where LaaJ is used as an evaluation strategy in security-related domains. We further provide a comparative analysis of existing approaches, highlighting current limitations, emerging threats, and open research challenges. Our findings reveal significant vulnerabilities in LLM-based evaluation frameworks, as well as promising directions for improving their robustness and reliability. Finally, we outline key research opportunities that can guide the development of more secure and trustworthy LLM-as-a-Judge systems.