Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts

📄 arXiv: 2503.09347v3 📥 PDF

作者: Hongyu Chen, Seraphina Goldfarb-Tarrant

分类: cs.CL, cs.AI

发布日期: 2025-03-12 (更新: 2025-07-09)

备注: 9 pages, ACL 2025


💡 一句话要点

揭示LLM安全评估器对输入伪影的脆弱性,提出陪审团评估方法以提升鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全评估 鲁棒性 输入伪影 陪审团评估

📋 核心要点

  1. 现有LLM安全评估器在面对输入伪影时表现出脆弱性,导致评估结果偏差。
  2. 提出基于陪审团的评估方法,通过聚合多个LLM的判断来提高评估的鲁棒性。
  3. 实验表明,陪审团评估能提升鲁棒性和与人类判断的一致性,但仍存在伪影敏感性。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用作自动评估器,以评估生成内容的安全性,但它们在这种角色中的可靠性仍然不确定。本研究评估了11个LLM评判模型在关键安全领域的多样性,考察了三个关键方面:重复评判任务中的自我一致性、与人类判断的一致性以及对输入伪影(如道歉或冗长的措辞)的敏感性。研究结果表明,LLM评判中的偏差会显著扭曲关于哪个内容来源更安全的最终结论,从而破坏比较评估的有效性。值得注意的是,仅道歉性语言伪影就可以使评估者的偏好倾斜高达98%。与预期相反,较大的模型并没有始终表现出更高的鲁棒性,而较小的模型有时对特定伪影表现出更高的抵抗力。为了减轻LLM评估器鲁棒性问题,我们研究了基于陪审团的评估,汇总了多个模型的决策。尽管这种方法既提高了鲁棒性又增强了与人类判断的一致性,但即使在最佳陪审团配置下,伪影敏感性仍然存在。这些结果突显了迫切需要多样化的、抗伪影的方法,以确保可靠的安全评估。

🔬 方法详解

问题定义:论文旨在解决LLM作为安全评估器时,对输入文本中存在的伪影(例如道歉性措辞、冗余信息等)过于敏感的问题。现有方法依赖单个LLM进行评估,容易受到这些伪影的影响,导致评估结果出现偏差,无法准确反映内容的真实安全性。

核心思路:论文的核心思路是采用“陪审团”模式,即不是依赖于单个LLM的判断,而是集成多个LLM的评估结果,通过集体决策来降低单个LLM的偏差带来的影响。这种方法类似于人类社会中的陪审团制度,旨在通过多样化的视角和集体智慧来提高决策的公正性和准确性。

技术框架:整体框架包括以下几个主要步骤:1)构建包含各种安全领域(如仇恨言论、暴力内容等)的测试数据集;2)使用不同的LLM作为评估器,对测试数据进行安全评估;3)引入输入伪影(如道歉性措辞)来测试LLM评估器的鲁棒性;4)设计不同的陪审团配置,例如选择不同的LLM组合、采用不同的投票策略等;5)评估不同陪审团配置的性能,包括鲁棒性、与人类判断的一致性等。

关键创新:论文的关键创新在于:1)系统性地研究了LLM安全评估器对输入伪影的敏感性,揭示了现有方法的不足;2)提出了基于陪审团的评估方法,通过集成多个LLM的判断来提高评估的鲁棒性;3)实验结果表明,陪审团评估在一定程度上能够缓解伪影带来的影响,并提高与人类判断的一致性。与现有方法相比,该方法更加稳健,能够提供更可靠的安全评估结果。

关键设计:论文的关键设计包括:1)选择了11个不同规模和架构的LLM作为评估器,以保证陪审团的多样性;2)设计了多种输入伪影,例如在文本中添加“我很抱歉”等道歉性措辞,或者增加冗余信息等;3)采用了不同的投票策略,例如简单多数投票、加权投票等,以探索最佳的陪审团配置;4)使用人类判断作为金标准,评估不同陪审团配置的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM安全评估器对输入伪影非常敏感,道歉性语言伪影可使评估者偏好倾斜高达98%。虽然更大的模型并不总是更鲁棒,但陪审团评估方法能够提高鲁棒性和与人类判断的一致性。即使在最佳陪审团配置下,伪影敏感性仍然存在,表明需要进一步研究抗伪影技术。

🎯 应用场景

该研究成果可应用于内容审核、风险评估、安全策略制定等领域。通过构建更鲁棒的LLM安全评估系统,可以更准确地识别和过滤有害内容,降低在线平台和应用的安全风险,为用户提供更安全可靠的网络环境。未来的研究可以进一步探索更有效的陪审团配置和抗伪影技术。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly employed as automated evaluators to assess the safety of generated content, yet their reliability in this role remains uncertain. This study evaluates a diverse set of 11 LLM judge models across critical safety domains, examining three key aspects: self-consistency in repeated judging tasks, alignment with human judgments, and susceptibility to input artifacts such as apologetic or verbose phrasing. Our findings reveal that biases in LLM judges can significantly distort the final verdict on which content source is safer, undermining the validity of comparative evaluations. Notably, apologetic language artifacts alone can skew evaluator preferences by up to 98\%. Contrary to expectations, larger models do not consistently exhibit greater robustness, while smaller models sometimes show higher resistance to specific artifacts. To mitigate LLM evaluator robustness issues, we investigate jury-based evaluations aggregating decisions from multiple models. Although this approach both improves robustness and enhances alignment to human judgements, artifact sensitivity persists even with the best jury configurations. These results highlight the urgent need for diversified, artifact-resistant methodologies to ensure reliable safety assessments.