SecureBreak -- A dataset towards safe and secure models

📄 arXiv: 2603.21975v1 📥 PDF

作者: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera

分类: cs.CR, cs.AI, cs.CL, cs.LG

发布日期: 2026-03-23


💡 一句话要点

提出SecureBreak数据集,用于提升大型语言模型安全性与防御对抗攻击能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 对抗攻击防御 数据集构建 安全对齐 人工标注 有害内容检测 风险评估

📋 核心要点

  1. 现有大型语言模型面临安全对齐的挑战,容易受到对抗攻击,导致生成有害内容,威胁实际应用。
  2. SecureBreak数据集通过高质量的人工标注,保守地标记有害内容,旨在提升模型检测和防御对抗攻击的能力。
  3. 实验表明,在SecureBreak上微调的预训练LLM在检测不安全内容方面表现出显著提升,验证了数据集的有效性。

📝 摘要(中文)

大型语言模型在现实应用中日益普及,安全对齐成为安全部署的关键。现有方法侧重模型架构和对齐方法,但无法完全消除有害内容生成。针对jailbreaking和prompt injection等攻击能绕过现有安全机制的问题,本文提出SecureBreak,一个面向安全的可靠数据集,旨在支持AI驱动的解决方案,检测因安全对齐残留弱点导致的有害LLM输出。该数据集通过人工标注保证高可靠性,保守地分配标签以确保安全性,并在多个风险类别中有效检测不安全内容。预训练LLM在SecureBreak上微调后表现出改进的结果。总体而言,该数据集可用于生成后安全过滤,并指导进一步的模型对齐和安全改进。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在安全对齐方面存在的不足,即现有方法无法有效防御对抗攻击(如jailbreaking和prompt injection),导致模型可能生成有害或不安全的内容。现有方法的痛点在于缺乏高质量、可靠的数据集来训练和评估模型的安全性,以及缺乏有效的后处理机制来过滤不安全输出。

核心思路:论文的核心思路是构建一个高质量、安全导向的数据集SecureBreak,用于训练和评估LLM在检测和过滤有害内容方面的能力。通过人工标注,保守地标记数据集中的有害内容,确保数据集的可靠性和安全性。利用该数据集,可以微调现有的LLM,提高其安全性和鲁棒性,并开发后处理机制来过滤不安全输出。

技术框架:SecureBreak数据集的构建流程主要包括以下几个阶段:1) 收集各种可能导致LLM生成有害内容的prompt;2) 由人工标注员对LLM的输出进行评估,判断其是否包含有害内容;3) 对标注结果进行审核,确保标注的准确性和一致性;4) 将标注好的数据整理成数据集,并提供给研究人员使用。该数据集包含多个风险类别,例如仇恨言论、暴力内容、不道德行为等。

关键创新:SecureBreak数据集的关键创新在于其高质量的人工标注和保守的标签分配策略。与以往的数据集相比,SecureBreak更加注重数据的可靠性和安全性,避免了因数据质量问题导致的模型安全风险。此外,SecureBreak数据集还涵盖了多个风险类别,可以用于训练和评估模型在不同安全场景下的表现。

关键设计:SecureBreak数据集的关键设计包括:1) 采用人工标注,确保数据的准确性和可靠性;2) 采用保守的标签分配策略,避免漏标有害内容;3) 涵盖多个风险类别,提高数据集的泛化能力;4) 提供详细的数据说明文档,方便研究人员使用;5) 数据集规模适中,易于训练和评估模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在SecureBreak数据集上微调的预训练LLM在检测不安全内容方面表现出显著提升。具体而言,微调后的模型在多个风险类别上的检测准确率均有所提高,并且能够有效防御一些常见的对抗攻击。这些结果验证了SecureBreak数据集的有效性,并表明其可以作为提升LLM安全性的重要工具。

🎯 应用场景

SecureBreak数据集可广泛应用于大型语言模型的安全评估、安全对齐和对抗防御。它可以用于训练和评估模型的安全性,提高模型在实际应用中的鲁棒性。此外,该数据集还可以用于开发后处理机制,过滤LLM生成的不安全内容,降低模型部署的风险。该研究成果有助于推动安全可靠的人工智能应用发展。

📄 摘要(原文)

Large language models are becoming pervasive core components in many real-world applications. As a consequence, security alignment represents a critical requirement for their safe deployment. Although previous related works focused primarily on model architectures and alignment methodologies, these approaches alone cannot ensure the complete elimination of harmful generations. This concern is reinforced by the growing body of scientific literature showing that attacks, such as jailbreaking and prompt injection, can bypass existing security alignment mechanisms. As a consequence, additional security strategies are needed both to provide qualitative feedback on the robustness of the obtained security alignment at the training stage, and to create an ``ultimate'' defense layer to block unsafe outputs possibly produced by deployed models. To provide a contribution in this scenario, this paper introduces SecureBreak, a safety-oriented dataset designed to support the development of AI-driven solutions for detecting harmful LLM outputs caused by residual weaknesses in security alignment. The dataset is highly reliable due to careful manual annotation, where labels are assigned conservatively to ensure safety. It performs well in detecting unsafe content across multiple risk categories. Tests with pre-trained LLMs show improved results after fine-tuning on SecureBreak. Overall, the dataset is useful both for post-generation safety filtering and for guiding further model alignment and security improvements.