LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories
作者: Krishnapriya Vishnubhotla, Soumya Vajjala, Akriti Vij, Isar Nejadgholi
分类: cs.CL
发布日期: 2026-05-29
备注: 8 pages plus appendices, under review
💡 一句话要点
揭示LLM作为安全评估者的不一致性,尤其在金融等受监管领域
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全评估 一致性 参考无关评估 有害内容检测
📋 核心要点
- 现有方法难以可靠评估LLM在金融等领域的安全性,尤其是在细粒度安全标准下。
- 该研究通过多维度安全评估,分析LLM作为评估者的一致性,揭示其在不同安全标准下的差异。
- 实验表明,LLM在识别细粒度安全问题时不可靠,且评估结果受语言和风格影响,不同LLM评估结果差异大。
📝 摘要(中文)
本文评估了在无参考设置下,自动评估器在执行多维度安全评估时的一致性。结果表明,大型语言模型在识别机器生成的建议(尤其是在金融等受监管领域)中的安全问题时,作为评估器是不可靠的,但在识别更明显的有害内容(如暴力)时,则更为可靠。模型判断的不一致程度因所选的安全标准而异,并且会受到内容的语言及其语言风格的影响。此外,对于同一输出,不同评估器之间在领域、安全标准和语言方面存在高度分歧。这些发现为使用LLM作为评估器的实践提供了新的见解,并为从业者如何在实际场景中使用自动评估器提供了若干建议。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)作为自动评估器,在评估其他LLM生成的文本内容安全性时,所表现出的不一致性问题。现有方法在评估LLM生成内容安全性时,依赖人工评估成本高昂,而使用LLM自动评估又面临可靠性问题,尤其是在金融等受监管领域,细微的安全问题难以被准确识别。
核心思路:核心思路是通过设计一套多维度的安全评估框架,针对不同安全标准和领域,系统性地评估LLM作为评估者的一致性。通过分析LLM在不同场景下的评估表现,揭示其在安全评估方面的局限性,并为实际应用提供指导。
技术框架:该研究采用参考无关的评估设置,即不提供标准答案,直接让LLM评估器对LLM生成的内容进行安全评估。评估流程主要包括:1)生成待评估的文本内容;2)选择不同的LLM作为评估器;3)定义多维度的安全评估标准(例如,暴力、仇恨言论、金融风险等);4)LLM评估器根据安全标准对文本内容进行评分或分类;5)分析评估结果的一致性,包括同一评估器在不同时间、不同语言下的评估一致性,以及不同评估器之间的评估一致性。
关键创新:该研究的关键创新在于系统性地评估了LLM作为安全评估者的一致性,并揭示了其在不同安全标准和领域下的局限性。以往研究较少关注LLM作为评估者本身的可信度问题,而该研究则直接指出了LLM在某些场景下作为评估者的不可靠性。
关键设计:研究中关键的设计包括:1)选择了多个具有代表性的LLM作为评估器;2)定义了多维度的安全评估标准,涵盖了不同类型的安全风险;3)采用了多种语言的文本内容进行评估,以考察语言对评估结果的影响;4)使用了多种统计方法来分析评估结果的一致性,例如,计算不同评估器之间的Cohen's Kappa系数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM作为评估器在识别金融等受监管领域的安全问题时表现出较低的一致性,但在识别暴力等更明显的有害内容时则相对可靠。不同LLM评估器之间存在显著的分歧,且评估结果受内容语言和风格的影响。这些发现强调了在实际应用中谨慎使用LLM作为安全评估器的必要性。
🎯 应用场景
该研究成果可应用于开发更可靠的LLM安全评估系统,尤其是在金融、医疗等高风险领域。通过了解LLM评估器的局限性,可以指导人工审核员更有效地进行安全审查,并为LLM的部署提供更安全的保障。未来,可以结合人工反馈和LLM评估,构建混合评估系统。
📄 摘要(原文)
We evaluate the consistency of automated judges in conducting a multi-dimensional safety evaluation in a reference-free setup. Our results indicate that Large Language Models are unreliable judges in identifying safety issues related to machine-generated advice in regulated domains such as finance, although they are more reliable at identifying more overt forms of unsafe/harmful content such as violence. The degree of inconsistency in a model's judgments can vary significantly by the chosen safety criteria and can be impacted by the language of the content and its linguistic style as well. Finally, there is high disagreement among different judges for the same output, across domains, safety criteria, and languages. These findings provide new insights on the practice of using LLMs as evaluators and offer several recommendations for practitioners on how to use automated judges in practical scenarios.