Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models
作者: Xiang Ji, Sanjeev Kulkarni, Mengdi Wang, Tengyang Xie
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-06-06
💡 一句话要点
提出SPAC,一种可证明且可扩展的离线对齐方法,用于语言模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型对齐 离线强化学习 人类反馈强化学习 自博弈 平均悲观 可证明收敛 大型语言模型
📋 核心要点
- 现有偏好优化方法在数据稀疏时无法保证收敛到最优策略,且计算效率在大规模LLM对齐中受限。
- SPAC方法利用自博弈机制,并借鉴离线RL中的平均悲观技术,实现可证明且可扩展的LLM对齐。
- 实验结果表明,SPAC在7B Mistral模型上表现出竞争性的性能,并在理论上证明了其收敛性。
📝 摘要(中文)
本研究致力于解决将大型语言模型(LLMs)与离线偏好数据对齐的挑战。我们特别关注通过人类反馈强化学习(RLHF)进行对齐。尽管流行的偏好优化方法在实践中表现出良好的经验性能,但从理论上讲,它们不能保证收敛到最优策略,并且当数据覆盖稀疏时,根据经典的离线强化学习(RL)结果,它们可能会失败。另一方面,最近的一系列工作侧重于具有可证明保证的、理论驱动的偏好优化方法,但这些方法对于像LLM对齐这样的大规模应用来说,计算效率不高。为了弥合这一差距,我们提出SPAC,一种新的具有自博弈的离线偏好优化方法,受到离线RL文献中平均悲观技术的启发,成为第一个可证明且可扩展的LLM对齐方法。我们既为它在一般函数逼近设置下单策略集中性下的收敛性提供了理论分析,又在Open LLM Leaderboard评估中展示了它在7B Mistral模型上LLM对齐方面的竞争性经验性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)与离线人类偏好数据对齐的问题。现有基于RLHF的偏好优化方法,如直接偏好优化(DPO),虽然在实践中表现良好,但在理论上缺乏收敛性保证,尤其是在数据覆盖不足的情况下,容易出现策略崩溃等问题。此外,一些具有理论保证的方法计算复杂度高,难以应用于大规模LLM的对齐。
核心思路:SPAC的核心思路是借鉴离线强化学习中的“平均悲观”(on-average pessimism)原则,通过自博弈的方式,训练一个对抗性的critic网络,来评估生成策略的质量。该critic网络会倾向于对未充分探索的状态-动作对给出较低的评分,从而引导策略避免进入这些区域,提高策略的鲁棒性和泛化能力。自博弈机制允许模型在没有额外人类标注的情况下,生成用于训练critic的数据。
技术框架:SPAC方法包含以下主要模块:1) 策略网络(Policy Network):负责生成文本序列,目标是最大化人类偏好。2) 对抗性Critic网络(Adversarial Critic Network):评估策略网络生成的文本序列的质量,并对未充分探索的区域给出悲观的估计。3) 自博弈模块(Self-Play Module):利用策略网络生成数据,并与自身进行博弈,产生训练Critic网络所需的数据。整体流程是:策略网络生成文本,Critic网络评估文本质量,策略网络根据Critic的反馈进行更新,同时,策略网络生成的数据用于训练Critic网络,形成一个闭环的自学习系统。
关键创新:SPAC的关键创新在于将离线强化学习中的平均悲观原则引入到LLM的对齐过程中,并结合自博弈机制,解决了传统方法在数据稀疏和计算复杂度上的问题。与现有方法相比,SPAC不仅在理论上保证了收敛性,而且在实践中具有良好的可扩展性,能够应用于大规模LLM的对齐。
关键设计:SPAC的关键设计包括:1) 对抗性Critic网络的结构和训练方式,需要仔细设计损失函数,以确保Critic能够准确评估策略的质量,并对未探索区域给出合理的悲观估计。2) 自博弈模块的策略选择和数据生成方式,需要平衡探索和利用,以确保生成的数据能够有效地训练Critic网络。3) 策略网络的更新方式,需要结合Critic的反馈,并采用合适的优化算法,以确保策略能够稳定地提升性能。
📊 实验亮点
实验结果表明,SPAC在7B Mistral模型上取得了与现有方法相当甚至更好的性能。在Open LLM Leaderboard评估中,SPAC展现了其在LLM对齐方面的竞争力。更重要的是,论文提供了SPAC在单策略集中性假设下的收敛性证明,这为LLM对齐方法提供了重要的理论支撑。
🎯 应用场景
SPAC方法可广泛应用于各种需要将LLM与人类偏好对齐的场景,例如对话系统、文本摘要、代码生成等。该方法能够提高LLM生成内容的质量、安全性和可靠性,减少模型产生有害或不符合人类价值观的内容的风险。此外,SPAC的自博弈特性使其能够降低对大量人工标注数据的依赖,从而降低对齐成本。
📄 摘要(原文)
This work studies the challenge of aligning large language models (LLMs) with offline preference data. We focus on alignment by Reinforcement Learning from Human Feedback (RLHF) in particular. While popular preference optimization methods exhibit good empirical performance in practice, they are not theoretically guaranteed to converge to the optimal policy and can provably fail when the data coverage is sparse by classical offline reinforcement learning (RL) results. On the other hand, a recent line of work has focused on theoretically motivated preference optimization methods with provable guarantees, but these are not computationally efficient for large-scale applications like LLM alignment. To bridge this gap, we propose SPAC, a new offline preference optimization method with self-play, inspired by the on-average pessimism technique from the offline RL literature, to be the first provable and scalable approach to LLM alignment. We both provide theoretical analysis for its convergence under single-policy concentrability for the general function approximation setting and demonstrate its competitive empirical performance for LLM alignment on a 7B Mistral model with Open LLM Leaderboard evaluations.