Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations
作者: Haozheng Luo, Yimin Wang, Jiahao Yu, Binghui Wang, Yan Chen
分类: cs.AI, cs.CL, cs.LG
发布日期: 2026-03-18
💡 一句话要点
CRAFT:利用隐层表征对比推理对齐,提升大型语言模型抗越狱攻击的鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对比学习 强化学习 安全对齐 越狱攻击 隐层表征 红队对抗 大型语言模型
📋 核心要点
- 现有防御方法主要在输出层面操作,缺乏对模型推理过程的深入干预,导致难以有效应对复杂的越狱攻击。
- CRAFT通过对比学习和强化学习,在隐空间中分离安全和不安全的推理轨迹,从而实现推理层面的安全对齐。
- 实验结果表明,CRAFT在推理安全性和最终响应安全性方面均显著优于现有方法,验证了其有效性。
📝 摘要(中文)
本文提出了一种名为CRAFT的红队对抗对齐框架,该框架利用模型的推理能力和隐层表征来提高模型抵抗越狱攻击的鲁棒性。与主要在输出层面进行防御的现有方法不同,CRAFT通过显式优化在隐状态空间上定义的目标,对齐大型推理模型以生成安全感知的推理轨迹。在方法论上,CRAFT将对比表征学习与强化学习相结合,以分离安全和不安全的推理轨迹,从而产生支持鲁棒、推理级别安全对齐的潜在空间几何结构。在理论上,我们证明了将潜在-文本一致性纳入GRPO可以通过排除表面对齐的策略作为局部最优解来消除它们。在实验上,我们使用两个强大的推理模型Qwen3-4B-Thinking和R1-Distill-Llama-8B在多个安全基准上评估CRAFT,结果表明CRAFT始终优于最先进的防御方法,如IPO和SafeKey。值得注意的是,CRAFT在推理安全性方面平均提高了79.0%,在最终响应安全性方面平均提高了87.7%,证明了隐空间推理对齐的有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在面对越狱攻击时鲁棒性不足的问题。现有的防御方法主要关注输出层面,缺乏对模型内部推理过程的控制,导致模型容易被精心设计的恶意prompt绕过,产生不安全或有害的输出。
核心思路:CRAFT的核心思路是通过在模型的隐层表征空间中进行安全对齐,从而引导模型生成安全的推理轨迹。具体来说,CRAFT利用对比学习来区分安全和不安全的隐层表征,并使用强化学习来优化模型的推理策略,使其倾向于生成安全的表征序列。
技术框架:CRAFT框架主要包含以下几个模块:1) 推理模型:使用大型语言模型作为基础推理引擎。2) 对比表征学习模块:用于学习安全和不安全推理轨迹的隐层表征,构建对比损失函数。3) 强化学习模块:使用GRPO(Generalized Proximal Policy Optimization)算法,结合对比学习的奖励信号,优化模型的推理策略。4) 红队对抗模块:用于生成对抗性prompt,评估和提升模型的鲁棒性。
关键创新:CRAFT的关键创新在于将对比表征学习与强化学习相结合,在模型的隐层表征空间中进行安全对齐。这种方法能够更深入地干预模型的推理过程,从而更有效地防御越狱攻击。此外,论文还提出了将潜在-文本一致性纳入GRPO,以消除表面对齐的策略。
关键设计:CRAFT使用对比损失函数来区分安全和不安全的隐层表征,该损失函数鼓励安全表征彼此靠近,并远离不安全表征。强化学习模块使用GRPO算法,并结合对比学习的奖励信号,该奖励信号基于当前隐层表征与安全表征的距离。论文使用了Qwen3-4B-Thinking和R1-Distill-Llama-8B作为推理模型,并在多个安全基准上进行了评估。
🖼️ 关键图片
📊 实验亮点
CRAFT在多个安全基准上显著优于现有防御方法,例如IPO和SafeKey。具体而言,CRAFT在推理安全性方面平均提高了79.0%,在最终响应安全性方面平均提高了87.7%。这些结果表明,CRAFT能够有效地提高大型语言模型抵抗越狱攻击的鲁棒性。
🎯 应用场景
CRAFT框架可应用于各种需要高安全性和可靠性的自然语言处理任务,例如智能客服、内容审核、金融风控等。通过提高模型抵抗恶意攻击的能力,CRAFT有助于构建更安全、更值得信赖的人工智能系统,降低有害信息传播的风险。
📄 摘要(原文)
We propose CRAFT, a red-teaming alignment framework that leverages model reasoning capabilities and hidden representations to improve robustness against jailbreak attacks. Unlike prior defenses that operate primarily at the output level, CRAFT aligns large reasoning models to generate safety-aware reasoning traces by explicitly optimizing objectives defined over the hidden state space. Methodologically, CRAFT integrates contrastive representation learning with reinforcement learning to separate safe and unsafe reasoning trajectories, yielding a latent-space geometry that supports robust, reasoning-level safety alignment. Theoretically, we show that incorporating latent-textual consistency into GRPO eliminates superficially aligned policies by ruling them out as local optima. Empirically, we evaluate CRAFT on multiple safety benchmarks using two strong reasoning models, Qwen3-4B-Thinking and R1-Distill-Llama-8B, where it consistently outperforms state-of-the-art defenses such as IPO and SafeKey. Notably, CRAFT delivers an average 79.0% improvement in reasoning safety and 87.7% improvement in final-response safety over the base models, demonstrating the effectiveness of hidden-space reasoning alignment.