TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

📄 arXiv: 2601.18292v1 📥 PDF

作者: Zhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun

分类: cs.LG, cs.AI

发布日期: 2026-01-26


💡 一句话要点

提出TriPlay-RL,通过三方自博弈强化学习提升LLM安全性对齐。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 强化学习 自博弈 对抗攻击 安全防御 评估 PPO

📋 核心要点

  1. 大型语言模型面临生成有害内容的风险,现有安全对齐方法需要大量人工标注,成本高昂。
  2. TriPlay-RL 框架通过引入攻击者、防御者和评估者三方自博弈,在强化学习循环中实现自动优化。
  3. 实验表明,该方法在提升对抗攻击有效性、安全防御性能和评估准确性方面均有显著提升。

📝 摘要(中文)

近年来,大型语言模型(LLM)的安全风险日益突出,减轻其生成有害内容的需求迫切。主流的LLM安全对齐范式通常采用一个协作框架,涉及三个角色:攻击者(用于生成对抗性提示)、防御者(用于安全防御)和评估者(用于响应评估)。本文提出了一个名为TriPlay-RL的闭环强化学习框架,该框架能够实现三个角色之间迭代和共同改进的协作,且几乎不需要手动标注。实验结果表明,攻击者在保持高输出多样性的同时,对抗有效性提高了20%-50%;防御者在不降低通用推理能力的情况下,安全性能提高了10%-30%;评估者通过迭代不断完善其细粒度判断能力,准确区分不安全响应、简单拒绝和有用的指导。总而言之,我们的框架为LLM安全对齐建立了一个高效且可扩展的范式,从而能够在统一的学习循环中实现持续的共同进化。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)安全对齐问题,即如何有效防止LLM生成有害、有毒的内容。现有方法的痛点在于需要大量的人工标注来训练模型,成本高昂且效率低下。此外,对抗样本的生成和防御策略的迭代更新也面临挑战。

核心思路:论文的核心思路是构建一个三方自博弈的强化学习框架,让攻击者、防御者和评估者在闭环中相互协作、共同进化。攻击者负责生成对抗性提示,防御者负责对LLM的输出进行安全防御,评估者负责评估LLM的响应是否安全。通过强化学习,三个角色不断优化各自的策略,从而提高LLM的安全性。

技术框架:TriPlay-RL框架包含三个主要模块:攻击者、防御者和评估者。攻击者使用强化学习生成能够诱导LLM产生有害内容的对抗性提示。防御者使用强化学习学习如何修改LLM的输出,使其更加安全。评估者使用强化学习学习如何准确判断LLM的响应是否安全,并区分不安全响应、简单拒绝和有用的指导。这三个模块在一个闭环中迭代训练,相互促进,共同提高LLM的安全性。

关键创新:该方法最重要的技术创新点在于提出了一个三方自博弈的强化学习框架,实现了攻击、防御和评估的自动化和协同优化。与现有方法相比,TriPlay-RL 框架几乎不需要人工标注,降低了成本,提高了效率。此外,该框架能够持续迭代更新,不断提高LLM的安全性。

关键设计:论文中使用了Proximal Policy Optimization (PPO) 算法来训练攻击者、防御者和评估者。奖励函数的设计至关重要,需要平衡各个角色的目标。例如,攻击者的奖励函数需要鼓励其生成有效的对抗性提示,同时保持输出的多样性。防御者的奖励函数需要鼓励其提高安全性能,同时避免降低LLM的通用推理能力。评估者的奖励函数需要鼓励其准确判断LLM的响应是否安全。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TriPlay-RL框架在LLM安全对齐方面取得了显著的提升。攻击者在保持高输出多样性的同时,对抗有效性提高了20%-50%;防御者在不降低通用推理能力的情况下,安全性能提高了10%-30%;评估者能够准确区分不安全响应、简单拒绝和有用的指导。这些结果验证了TriPlay-RL框架的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要确保LLM安全性的场景,例如智能客服、内容生成、教育辅导等。通过TriPlay-RL框架,可以有效降低LLM生成有害内容的风险,提升用户体验,并促进LLM技术的健康发展。未来,该方法还可以扩展到其他类型的AI系统安全对齐问题。

📄 摘要(原文)

In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.