RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

📄 arXiv: 2601.03699v1 📥 PDF

作者: Quy-Anh Dang, Chris Ngo, Truong-Son Hy

分类: cs.CL

发布日期: 2026-01-07

🔗 代码/项目: GITHUB


💡 一句话要点

RedBench:构建通用数据集,全面评估大型语言模型的对抗鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 红队测试 对抗攻击 安全评估 通用数据集

📋 核心要点

  1. 现有红队数据集在风险分类、领域覆盖和评估时效性方面存在不足,难以系统评估大型语言模型的漏洞。
  2. RedBench通过整合多个基准数据集,采用标准化的风险分类法和领域划分,构建了一个通用的红队数据集。
  3. 论文分析了现有数据集,为现代LLM建立了性能基线,并开源了数据集和评估代码,促进了LLM安全研究。

📝 摘要(中文)

随着大型语言模型(LLMs)在安全关键型应用中变得不可或缺,确保其对抗恶意提示的鲁棒性至关重要。然而,现有的红队数据集存在风险分类不一致、领域覆盖范围有限以及评估过时等问题,阻碍了系统性的漏洞评估。为了解决这些挑战,我们推出了RedBench,这是一个通用数据集,汇集了来自领先会议和存储库的37个基准数据集,包含29,362个攻击和拒绝提示样本。RedBench采用包含22个风险类别和19个领域的标准化分类法,从而能够对LLM漏洞进行一致且全面的评估。我们提供了对现有数据集的详细分析,为现代LLM建立了基线,并开源了数据集和评估代码。我们的贡献有助于进行稳健的比较,促进未来的研究,并推动开发用于实际部署的安全可靠的LLM。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)红队数据集存在几个关键问题。首先,不同数据集的风险分类标准不一致,导致难以进行跨数据集的比较和分析。其次,现有数据集的领域覆盖范围有限,无法全面评估LLM在各种应用场景下的安全性。最后,一些数据集的评估方法已经过时,无法准确反映当前LLM的漏洞情况。这些问题阻碍了LLM安全性的系统性评估和提升。

核心思路:RedBench的核心思路是整合现有的多个红队数据集,并采用统一的风险分类标准和领域划分,从而构建一个通用的、全面的红队数据集。通过对现有数据集的重新组织和标准化,RedBench旨在提供一个更可靠、更易于使用的平台,用于评估和比较不同LLM的安全性。

技术框架:RedBench的技术框架主要包括以下几个阶段:1) 数据收集:从领先的会议和存储库中收集现有的红队数据集。2) 数据清洗和预处理:对收集到的数据进行清洗和预处理,例如去除重复样本、修复错误标签等。3) 风险分类标准化:将不同数据集的风险分类标准映射到RedBench的统一分类法上,该分类法包含22个风险类别。4) 领域划分标准化:将不同数据集的领域划分映射到RedBench的统一领域划分上,该划分包含19个领域。5) 数据集构建:将处理后的数据整合到RedBench数据集中,并提供相应的元数据信息。6) 评估基线建立:使用RedBench数据集评估现代LLM的性能,并建立基线。

关键创新:RedBench的关键创新在于其通用性和全面性。通过整合多个数据集并采用标准化的分类法和领域划分,RedBench提供了一个更全面、更一致的LLM安全性评估平台。与现有数据集相比,RedBench覆盖了更广泛的风险类别和应用领域,能够更准确地反映LLM的漏洞情况。此外,RedBench的开源特性也促进了LLM安全研究的开放性和可重复性。

关键设计:RedBench的关键设计包括:1) 统一的风险分类法:包含22个风险类别,例如仇恨言论、虚假信息、安全漏洞等。2) 统一的领域划分:包含19个领域,例如医疗、金融、法律等。3) 数据集规模:包含29,362个样本,涵盖攻击和拒绝提示。4) 评估指标:采用多种评估指标,例如攻击成功率、拒绝率等。5) 开源代码:提供数据集和评估代码,方便研究人员使用和扩展。

📊 实验亮点

RedBench数据集包含29,362个样本,覆盖22个风险类别和19个领域,是目前最全面的LLM红队数据集之一。论文使用RedBench评估了多个现代LLM,并建立了性能基线。实验结果表明,即使是最先进的LLM,在面对RedBench中的对抗提示时,仍然存在一定的安全漏洞。例如,某些LLM在特定风险类别下的攻击成功率仍然较高,表明需要进一步改进其安全性。

🎯 应用场景

RedBench可广泛应用于大型语言模型的安全评估、对抗训练和红队测试。研究人员和开发者可以使用RedBench来评估其LLM的鲁棒性,识别潜在的安全漏洞,并开发更有效的防御机制。此外,RedBench还可以用于训练更安全的LLM,例如通过对抗训练来提高模型对恶意提示的抵抗能力。该数据集有助于提升LLM在安全关键领域的可靠性和安全性,例如医疗诊断、金融风控等。

📄 摘要(原文)

As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval