Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

📄 arXiv: 2605.00553v1 📥 PDF

作者: Minchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han, Junmo Kim

分类: cs.LG

发布日期: 2026-05-01

备注: ICML 2026 Spotlight


💡 一句话要点

提出Stable-GFlowNet,通过对比轨迹平衡实现更稳定和多样的大语言模型红队测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 红队测试 生成式流网络 对比学习 轨迹平衡

📋 核心要点

  1. 现有红队测试方法难以兼顾攻击的有效性和多样性,且生成式流网络(GFNs)训练不稳定,易发生模式崩溃。
  2. 提出Stable-GFN,通过对比轨迹平衡消除配分函数估计,并引入鲁棒掩码和流畅性稳定器,提升训练稳定性。
  3. 实验证明,Stable-GFN在各种设置下均表现出卓越的攻击性能和多样性,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLM)红队测试是确保LLM安全性的重要过程,旨在主动识别LLM的漏洞。在红队测试中,找到有效且多样化的攻击至关重要,但同时实现这两点极具挑战性。生成式流网络(GFNs)在执行分布匹配方面表现出潜力,但其训练不稳定和模式崩溃问题一直备受诟病。特别是在红队测试中,不稳定的奖励会加速模式崩溃。我们提出了Stable-GFN(S-GFN),它消除了GFN中的配分函数$Z$估计,从而降低了训练的不稳定性。S-GFN通过成对比较避免了Z估计,并采用了一种鲁棒的掩码方法来应对嘈杂的奖励。此外,我们还提出了一种流畅性稳定器,以防止模型陷入产生乱码的局部最优解。S-GFN在保持GFN最优策略的同时,提供了更稳定的训练。我们证明了S-GFN在各种设置下都具有压倒性的攻击性能和多样性。

🔬 方法详解

问题定义:论文旨在解决大语言模型红队测试中,现有方法难以同时保证攻击的有效性和多样性,以及生成式流网络(GFNs)训练不稳定、容易发生模式崩溃的问题。特别是在红队测试场景下,奖励信号通常比较嘈杂和不稳定,这会进一步加剧GFNs的训练难度和模式崩溃现象。

核心思路:论文的核心思路是通过改进GFN的训练方式,使其更加稳定和鲁棒,从而能够生成更多样且有效的攻击样本。具体来说,论文通过对比学习的方式避免了对配分函数Z的估计,并引入了鲁棒的掩码机制来应对噪声奖励,以及流畅性稳定器来避免生成无意义的文本。

技术框架:Stable-GFN (S-GFN) 的整体框架仍然基于 GFN,但对其训练过程进行了改进。主要包含以下几个关键模块:1) 轨迹生成模块:用于生成一系列的攻击样本轨迹。2) 对比学习模块:通过成对比较轨迹的优劣,避免了对配分函数Z的估计。3) 鲁棒掩码模块:用于过滤掉噪声奖励,提高训练的稳定性。4) 流畅性稳定器模块:用于防止模型生成无意义的文本,提高生成样本的质量。

关键创新:论文最关键的创新在于提出了Stable-GFN,它通过对比轨迹平衡消除了GFN中对配分函数Z的估计,从而显著降低了训练的不稳定性。与传统的GFN方法相比,S-GFN不需要显式地估计配分函数,而是通过成对比较轨迹的奖励来学习策略,这使得训练过程更加稳定和高效。此外,鲁棒掩码和流畅性稳定器的引入也进一步提高了模型的性能和鲁棒性。

关键设计:在对比学习模块中,论文采用了pairwise ranking loss来训练模型,鼓励模型生成奖励更高的轨迹。鲁棒掩码模块使用一个阈值来过滤掉低于该阈值的奖励信号。流畅性稳定器则通过添加一个额外的损失项,惩罚生成不流畅或无意义的文本。具体的网络结构和超参数设置在论文中有详细描述,但未在摘要中体现。

📊 实验亮点

论文实验结果表明,Stable-GFN在各种红队测试设置下均取得了显著的性能提升,能够生成更多样且有效的攻击样本。具体的数据对比和基线模型信息未在摘要中给出,但强调了S-GFN的“压倒性”攻击性能和多样性。

🎯 应用场景

该研究成果可应用于提升大语言模型的安全性,通过自动生成多样化的攻击样本,帮助开发者更全面地评估和修复模型漏洞。此外,该方法也可推广到其他生成式任务中,例如药物发现、分子设计等,在这些领域中,生成多样化且高质量的样本同样至关重要。

📄 摘要(原文)

Large Language Model (LLM) Red-Teaming, which proactively identifies vulnerabilities of LLMs, is an essential process for ensuring safety. Finding effective and diverse attacks in red-teaming is important, but achieving both is challenging. Generative Flow Networks (GFNs) that perform distribution matching are a promising methods, but they are notorious for training instability and mode collapse. In particular, unstable rewards in red-teaming accelerate mode collapse. We propose Stable-GFN (S-GFN), which eliminates partition function $Z$ estimation in GFN and reduces training instability. S-GFN avoids Z-estimation through pairwise comparisons and employs a robust masking methodology against noisy rewards. Additionally, we propose a fluency stabilizer to prevent the model from getting stuck in local optima that produce gibberish. S-GFN provides more stable training while maintaining the optimal policy of GFN. We demonstrate the overwhelming attack performance and diversity of S-GFN across various settings.