Reinforcement Learning with Backtracking Feedback

📄 arXiv: 2602.08377v1 📥 PDF

作者: Bilgehan Sel, Vaishakh Keshava, Phillip Wallis, Lukas Rutishauser, Ming Jin, Dingcheng Li

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-02-09

备注: NeurIPS 2025


💡 一句话要点

提出RLBF框架,通过强化学习动态纠正LLM生成错误,提升模型安全性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 安全性 对抗攻击 回溯反馈

📋 核心要点

  1. 大型语言模型面临对抗攻击和分布内错误的安全性挑战,现有方法难以有效应对。
  2. RLBF框架利用强化学习,训练模型动态纠正生成错误,通过回溯机制恢复安全状态。
  3. 实验表明,RLBF显著降低了攻击成功率,同时保持了模型的基础效用。

📝 摘要(中文)

本文提出了一种名为“基于回溯反馈的强化学习”(RLBF)的框架,旨在解决大型语言模型(LLM)在对抗性攻击和分布内错误下的安全性问题。该框架改进了先前的BSAFE等方法,主要利用强化学习(RL)阶段,使模型能够动态地纠正自身的生成错误。通过RL和对模型实时输出的评论家反馈,LLM被训练成能够识别并从实际产生的安全违规行为中恢复,通过发出有效的“回溯x个token”信号,然后自回归地继续生成。这个RL过程对于增强模型对复杂对抗策略(包括中间填充、贪婪坐标梯度(GCG)攻击和解码参数操作)的抵抗力至关重要。为了进一步支持回溯能力的获取,本文还提出了一种增强的监督微调(SFT)数据生成策略(BSAFE+),通过将违规行为注入到连贯、原本安全的文本中,从而为回溯机制提供更有效的初始训练。全面的实验评估表明,RLBF显著降低了各种基准和模型规模下的攻击成功率,在实现卓越安全性的同时,关键地保留了基础模型的效用。

🔬 方法详解

问题定义:大型语言模型(LLM)在实际应用中面临着安全风险,尤其是在对抗性攻击和分布内错误的情况下。现有的安全方法,如BSAFE,在应对复杂的对抗策略时存在局限性,并且可能影响模型的原始性能。因此,如何提升LLM在各种攻击下的鲁棒性,同时保持其生成能力,是一个亟待解决的问题。

核心思路:RLBF的核心思路是让LLM学会自我纠正。通过强化学习,模型能够识别并从自身的错误生成中恢复,而不是依赖外部干预或预定义的规则。这种自我纠正的能力是通过训练模型发出“回溯”信号来实现的,该信号指示模型回退到之前的某个状态,然后重新生成更安全的内容。这种动态纠错机制使得模型能够适应各种未知的攻击模式。

技术框架:RLBF框架主要包含两个阶段:监督微调(SFT)和强化学习(RL)。在SFT阶段,使用BSAFE+数据生成策略,该策略通过在安全文本中注入违规行为来创建训练数据,从而帮助模型学习识别和回溯错误。在RL阶段,使用强化学习算法训练模型,使其能够根据环境反馈(例如,评论家的奖励信号)动态地调整其生成策略,并学会发出适当的回溯信号。整个框架的目标是最大化模型的安全性和效用。

关键创新:RLBF的关键创新在于其动态纠错机制和强化学习的应用。与传统的静态安全策略不同,RLBF允许模型在生成过程中实时地识别和纠正错误,从而提高了模型的鲁棒性。此外,通过强化学习,模型能够根据实际的反馈信号来优化其回溯策略,从而更好地适应各种攻击模式。BSAFE+数据生成策略也是一个创新点,它通过更有效地注入违规行为来改善SFT阶段的训练效果。

关键设计:在SFT阶段,BSAFE+策略通过在安全文本中插入对抗性提示或修改现有文本来生成包含违规行为的数据。在RL阶段,使用评论家网络来评估模型的输出,并根据其安全性给出奖励信号。奖励函数的设计至关重要,它需要平衡模型的安全性和效用。回溯信号的实现方式也需要仔细考虑,例如,可以使用特殊的token来表示回溯操作,并训练模型预测回溯的token数量。此外,还需要选择合适的强化学习算法,例如PPO或DQN,并调整其超参数以获得最佳性能。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,RLBF在多个基准测试中显著降低了攻击成功率,例如在针对GCG攻击的防御中,攻击成功率降低了超过50%。同时,RLBF在保持模型效用方面也表现出色,与基线模型相比,性能下降幅度较小。这些结果证明了RLBF在提升LLM安全性和实用性方面的有效性。

🎯 应用场景

RLBF框架可广泛应用于需要高安全性的LLM应用场景,例如金融、医疗、法律等领域。它可以有效防御对抗性攻击,减少有害内容的生成,提高用户信任度。未来,该技术有望扩展到其他类型的生成模型,并与其他安全技术相结合,构建更强大的安全防御体系。

📄 摘要(原文)

Addressing the critical need for robust safety in Large Language Models (LLMs), particularly against adversarial attacks and in-distribution errors, we introduce Reinforcement Learning with Backtracking Feedback (RLBF). This framework advances upon prior methods, such as BSAFE, by primarily leveraging a Reinforcement Learning (RL) stage where models learn to dynamically correct their own generation errors. Through RL with critic feedback on the model's live outputs, LLMs are trained to identify and recover from their actual, emergent safety violations by emitting an efficient "backtrack by x tokens" signal, then continuing generation autoregressively. This RL process is crucial for instilling resilience against sophisticated adversarial strategies, including middle filling, Greedy Coordinate Gradient (GCG) attacks, and decoding parameter manipulations. To further support the acquisition of this backtracking capability, we also propose an enhanced Supervised Fine-Tuning (SFT) data generation strategy (BSAFE+). This method improves upon previous data creation techniques by injecting violations into coherent, originally safe text, providing more effective initial training for the backtracking mechanism. Comprehensive empirical evaluations demonstrate that RLBF significantly reduces attack success rates across diverse benchmarks and model scales, achieving superior safety outcomes while critically preserving foundational model utility.