Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge
作者: Riccardo Cantini, Alessio Orsino, Massimo Ruggiero, Domenico Talia
分类: cs.CL, cs.AI
发布日期: 2025-04-10 (更新: 2025-10-16)
期刊: Cantini, R., Orsino, A., Ruggiero, M., Talia, D. Benchmarking adversarial robustness to bias elicitation in large language models: scalable automated assessment with LLM-as-a-judge. Mach Learn 114, 249 (2025)
DOI: 10.1007/s10994-025-06862-6
💡 一句话要点
提出CLEAR-Bias基准测试框架,评估大型语言模型对抗偏见诱导的鲁棒性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 偏见评估 对抗鲁棒性 基准测试 LLM-as-a-Judge
📋 核心要点
- 大型语言模型存在内嵌偏见,对抗攻击可诱导偏见输出,现有方法难以有效评估模型的偏见鲁棒性。
- 提出CLEAR-Bias基准测试框架,通过系统性探测、安全评分和越狱技术,评估LLM对抗偏见诱导的鲁棒性。
- 实验表明,模型在年龄、残疾和交叉偏见方面抵抗力较弱,且医疗领域微调模型安全性低于通用模型。
📝 摘要(中文)
大型语言模型(LLMs)日益融入关键社会领域,引发了对其内嵌偏见的担忧,这些偏见可能延续刻板印象并损害公平性。尽管采取了缓解措施,但最近的研究表明,LLMs仍然容易受到对抗性攻击,这些攻击会诱导出带有偏见的输出。本文提出了一种可扩展的基准测试框架,用于评估LLM对抗对抗性偏见诱导的鲁棒性。我们的方法包括:(i)系统地探测模型在多个任务中针对不同的社会文化偏见;(ii)使用LLM-as-a-Judge方法通过安全评分来量化鲁棒性;(iii)采用越狱技术来揭示安全漏洞。为了方便系统基准测试,我们发布了一个精选的偏见相关提示数据集,名为CLEAR-Bias。我们的分析表明,DeepSeek V3是最可靠的judge LLM,偏见抵抗力是不均衡的,其中年龄、残疾和交叉偏见最为突出。一些小型模型在安全性方面优于大型模型,这表明训练和架构可能比规模更重要。然而,没有模型能够完全抵抗对抗性诱导,使用低资源语言或拒绝抑制的越狱攻击在模型系列中被证明是有效的。我们还发现,连续的LLM世代表现出轻微的安全增益,而针对医疗领域微调的模型往往不如其通用模型安全。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中存在的偏见问题,特别是模型在面对对抗性攻击时,容易被诱导出带有偏见的输出。现有方法难以系统性、可扩展地评估LLMs对抗偏见诱导的鲁棒性,缺乏统一的基准测试和评估标准。
核心思路:论文的核心思路是构建一个可扩展的基准测试框架,通过系统性的提示工程、安全评分和越狱攻击,全面评估LLMs在面对对抗性偏见诱导时的鲁棒性。该框架利用LLM-as-a-Judge方法,自动化地评估模型的安全性,并揭示模型的安全漏洞。
技术框架:该框架主要包含三个阶段:(1) 系统性探测:构建包含多种偏见类型(如年龄、性别、种族等)的提示数据集(CLEAR-Bias),并针对目标LLM进行系统性探测,收集模型的输出结果。(2) 安全评分:利用LLM-as-a-Judge方法,将另一个LLM(如DeepSeek V3)作为裁判,评估目标LLM输出结果的安全性,并给出安全评分。(3) 越狱攻击:采用各种越狱技术(如使用低资源语言、拒绝抑制等)对目标LLM进行攻击,尝试绕过模型的安全机制,诱导出带有偏见的输出。
关键创新:该论文的关键创新在于:(1) 提出了一个可扩展的、自动化的基准测试框架,用于评估LLMs对抗偏见诱导的鲁棒性。(2) 构建了一个包含多种偏见类型的提示数据集(CLEAR-Bias),为系统性评估提供了数据基础。(3) 采用了LLM-as-a-Judge方法,实现了安全评分的自动化,提高了评估效率。(4) 结合了系统性探测、安全评分和越狱攻击,全面评估了LLMs的安全性。
关键设计:CLEAR-Bias数据集包含多种偏见类型,例如年龄、残疾、性别、种族等。LLM-as-a-Judge方法使用DeepSeek V3作为裁判模型,通过比较目标LLM的输出与预定义的安全标准,给出安全评分。越狱攻击采用了多种技术,包括使用低资源语言的提示、拒绝抑制的提示等。安全评分的具体计算方式未知,可能涉及对输出文本的情感分析、关键词检测等技术。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DeepSeek V3是最可靠的judge LLM。模型的偏见抵抗力不均衡,年龄、残疾和交叉偏见最为突出。一些小型模型在安全性方面优于大型模型。没有模型能够完全抵抗对抗性诱导,使用低资源语言或拒绝抑制的越狱攻击有效。连续的LLM世代表现出轻微的安全增益,而针对医疗领域微调的模型往往安全性较低。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型的安全性,降低其在实际应用中产生偏见输出的风险。例如,在招聘、信贷评估、医疗诊断等领域,可以利用该框架评估LLM的公平性,避免模型做出歧视性决策。此外,该研究还可以帮助开发者更好地理解LLM的弱点,从而设计更有效的防御机制。
📄 摘要(原文)
The growing integration of Large Language Models (LLMs) into critical societal domains has raised concerns about embedded biases that can perpetuate stereotypes and undermine fairness. Such biases may stem from historical inequalities in training data, linguistic imbalances, or adversarial manipulation. Despite mitigation efforts, recent studies show that LLMs remain vulnerable to adversarial attacks that elicit biased outputs. This work proposes a scalable benchmarking framework to assess LLM robustness to adversarial bias elicitation. Our methodology involves: (i) systematically probing models across multiple tasks targeting diverse sociocultural biases, (ii) quantifying robustness through safety scores using an LLM-as-a-Judge approach, and (iii) employing jailbreak techniques to reveal safety vulnerabilities. To facilitate systematic benchmarking, we release a curated dataset of bias-related prompts, named CLEAR-Bias. Our analysis, identifying DeepSeek V3 as the most reliable judge LLM, reveals that bias resilience is uneven, with age, disability, and intersectional biases among the most prominent. Some small models outperform larger ones in safety, suggesting that training and architecture may matter more than scale. However, no model is fully robust to adversarial elicitation, with jailbreak attacks using low-resource languages or refusal suppression proving effective across model families. We also find that successive LLM generations exhibit slight safety gains, while models fine-tuned for the medical domain tend to be less safe than their general-purpose counterparts.