From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment
作者: Kyubyung Chae, Hyunbin Jin, Taesup Kim
分类: cs.CR, cs.AI, cs.CL
发布日期: 2025-06-07
💡 一句话要点
提出拒绝感知自适应注入攻击以解决安全对齐问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全对齐 合成数据 拒绝感知 自适应注入 模型鲁棒性 攻击技术
📋 核心要点
- 现有方法在安全对齐大型语言模型时,依赖大量人工标注数据,成本高且耗时。
- 本文提出的RAAI框架通过检测拒绝信号并注入短语,简化了合成数据生成过程。
- 实验结果显示,RAAI显著提高了有害响应率,并增强了模型对有害提示的鲁棒性。
📝 摘要(中文)
安全对齐大型语言模型(LLMs)通常需要大量人工标注的偏好数据,这一过程既昂贵又耗时。尽管合成数据提供了有前景的替代方案,但现有方法往往依赖复杂的迭代提示或辅助模型。为此,本文提出了拒绝感知自适应注入(RAAI),这是一个简单、无训练且模型无关的框架,重新利用了LLM攻击技术。RAAI通过检测内部拒绝信号并自适应地注入预定义短语,来引发有害但流畅的输出。实验表明,RAAI有效地破解了LLMs,使有害响应率从基线的2.15%提高到平均61.04%。重要的是,使用RAAI生成的合成数据对LLMs进行微调,提高了模型对有害提示的鲁棒性,同时保持了在标准任务(如MMLU和ARC)上的一般能力。
🔬 方法详解
问题定义:本文旨在解决大型语言模型安全对齐过程中对大量人工标注数据的依赖,现有方法往往复杂且效率低下。
核心思路:RAAI框架通过检测模型的拒绝信号,动态注入预定义短语,促使模型生成有害但流畅的输出,从而简化合成数据的生成过程。
技术框架:RAAI的整体架构包括信号检测模块和短语注入模块。信号检测模块识别模型的拒绝信号,而短语注入模块则根据检测结果选择合适的短语进行注入。
关键创新:RAAI的创新在于将LLM攻击技术转化为安全对齐的工具,避免了传统方法的复杂性,并实现了无训练的高效数据生成。
关键设计:RAAI的设计中,关键参数包括拒绝信号的阈值设置和注入短语的选择策略,确保生成的输出既有害又流畅。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RAAI能够将有害响应率从基线的2.15%提升至平均61.04%,显示出显著的效果提升。此外,使用RAAI生成的合成数据进行微调后,模型在标准任务上的表现保持稳定,增强了对有害提示的鲁棒性。
🎯 应用场景
该研究的潜在应用领域包括大型语言模型的安全性提升、合成数据生成以及人机交互系统的安全对齐。RAAI框架的简化设计使其在实际应用中具有较高的可操作性,未来可能对AI系统的安全性产生深远影响。
📄 摘要(原文)
Safely aligning large language models (LLMs) often demands extensive human-labeled preference data, a process that's both costly and time-consuming. While synthetic data offers a promising alternative, current methods frequently rely on complex iterative prompting or auxiliary models. To address this, we introduce Refusal-Aware Adaptive Injection (RAAI), a straightforward, training-free, and model-agnostic framework that repurposes LLM attack techniques. RAAI works by detecting internal refusal signals and adaptively injecting predefined phrases to elicit harmful, yet fluent, completions. Our experiments show RAAI effectively jailbreaks LLMs, increasing the harmful response rate from a baseline of 2.15% to up to 61.04% on average across four benchmarks. Crucially, fine-tuning LLMs with the synthetic data generated by RAAI improves model robustness against harmful prompts while preserving general capabilities on standard tasks like MMLU and ARC. This work highlights how LLM attack methodologies can be reframed as practical tools for scalable and controllable safety alignment.