Stackelberg Learning from Human Feedback: Preference Optimization as a Sequential Game
作者: Barna Pásztor, Thomas Kleine Buening, Andreas Krause
分类: cs.LG, cs.AI, cs.GT, cs.MA, stat.ML
发布日期: 2025-12-18
备注: 10 pages, 5 tables, 1 figures
💡 一句话要点
提出Stackelberg Learning from Human Feedback (SLHF)框架,用于偏好优化。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机反馈学习 偏好优化 Stackelberg博弈 大型语言模型 人工智能对齐
📋 核心要点
- 现有RLHF方法为动作分配标量奖励,NLHF寻求同步博弈均衡,无法捕捉丰富的偏好结构。
- SLHF将对齐问题建模为领导者和跟随者之间的序贯博弈,利用序贯博弈的不对称性来捕获更丰富的偏好结构。
- 实验表明SLHF在不同偏好数据集上实现了强大的对齐,并产生可在模型系列之间转移的推理时精炼。
📝 摘要(中文)
本文提出了一种新的偏好优化框架,即Stackelberg Learning from Human Feedback (SLHF)。SLHF将对齐问题建模为两个策略之间的序贯博弈:领导者(Leader)首先采取行动,然后跟随者(Follower)根据领导者的行动做出响应。这种方法将偏好优化分解为跟随者的精炼问题和领导者对抗性优化问题。与为动作分配标量奖励的Reinforcement Learning from Human Feedback (RLHF)或寻求同步博弈均衡的Nash Learning from Human Feedback (NLHF)不同,SLHF利用序贯博弈的不对称性来捕获更丰富的偏好结构。SLHF的序贯设计自然地实现了推理时精炼,因为跟随者学会改进领导者的动作,并且这些改进可以通过迭代采样来利用。我们比较了SLHF、RLHF和NLHF的解概念,并阐述了在一致性、数据敏感性和对非传递偏好的鲁棒性方面的关键优势。在大型语言模型上的实验表明,SLHF在不同的偏好数据集上实现了强大的对齐,可以从0.5B扩展到8B参数,并产生可在模型系列之间转移而无需进一步微调的推理时精炼。
🔬 方法详解
问题定义:现有基于人类反馈的强化学习方法(RLHF)和基于人类反馈的纳什学习方法(NLHF)在处理复杂的偏好结构时存在局限性。RLHF为每个动作分配一个标量奖励,无法充分表达人类偏好的细微差别。NLHF则假设所有策略同时行动,忽略了策略之间的序贯关系。这些方法在一致性、数据敏感性和对非传递偏好的鲁棒性方面存在不足。
核心思路:SLHF的核心思想是将偏好学习建模为一个Stackelberg博弈,其中领导者(Leader)策略首先采取行动,然后跟随者(Follower)策略根据领导者的行动做出响应。这种序贯博弈的设定能够更好地捕捉人类偏好的复杂性,因为跟随者可以根据领导者的行为进行调整和优化。通过这种方式,SLHF将偏好优化分解为两个子问题:跟随者的精炼问题和领导者的对抗性优化问题。
技术框架:SLHF的整体框架包含两个主要阶段:跟随者学习和领导者学习。在跟随者学习阶段,目标是训练一个跟随者策略,使其能够根据领导者的行动做出最佳响应。这通常通过监督学习或强化学习来实现,使用人类提供的偏好数据来指导跟随者策略的训练。在领导者学习阶段,目标是训练一个领导者策略,使其能够最大化其自身的奖励,同时考虑到跟随者的响应。这通常通过对抗性训练来实现,其中领导者策略试图欺骗跟随者策略,而跟随者策略则试图识别并纠正领导者策略的错误。
关键创新:SLHF的关键创新在于其将偏好学习建模为一个Stackelberg博弈。这种序贯博弈的设定能够更好地捕捉人类偏好的复杂性,并允许在推理时进行精炼。与RLHF和NLHF相比,SLHF在一致性、数据敏感性和对非传递偏好的鲁棒性方面具有优势。此外,SLHF的序贯设计自然地实现了推理时精炼,因为跟随者学会改进领导者的动作,并且这些改进可以通过迭代采样来利用。
关键设计:SLHF的关键设计包括选择合适的跟随者策略和领导者策略,以及设计合适的奖励函数和损失函数。跟随者策略通常是一个条件策略,其输入是领导者的行动,输出是跟随者的响应。领导者策略通常是一个生成模型,其目标是生成能够最大化其自身奖励的行动。奖励函数通常基于人类提供的偏好数据,用于衡量领导者和跟随者策略的性能。损失函数用于训练跟随者和领导者策略,通常包括监督学习损失和强化学习损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SLHF在不同的偏好数据集上实现了强大的对齐,并且可以从0.5B扩展到8B参数。更重要的是,SLHF产生的推理时精炼可以跨模型系列转移,而无需进一步微调。这表明SLHF具有很强的泛化能力和实用价值。
🎯 应用场景
SLHF可应用于各种需要从人类反馈中学习偏好的场景,例如:对话系统、文本生成、图像生成、机器人控制等。通过学习人类的偏好,SLHF可以生成更符合人类期望的内容或行为,提高用户满意度和系统性能。该方法在人机交互、人工智能对齐等领域具有重要的应用价值和潜力。
📄 摘要(原文)
We introduce Stackelberg Learning from Human Feedback (SLHF), a new framework for preference optimization. SLHF frames the alignment problem as a sequential-move game between two policies: a Leader, which commits to an action, and a Follower, which responds conditionally on the Leader's action. This approach decomposes preference optimization into a refinement problem for the Follower and an optimization problem against an adversary for the Leader. Unlike Reinforcement Learning from Human Feedback (RLHF), which assigns scalar rewards to actions, or Nash Learning from Human Feedback (NLHF), which seeks a simultaneous-move equilibrium, SLHF leverages the asymmetry of sequential play to capture richer preference structures. The sequential design of SLHF naturally enables inference-time refinement, as the Follower learns to improve the Leader's actions, and these refinements can be leveraged through iterative sampling. We compare the solution concepts of SLHF, RLHF, and NLHF, and lay out key advantages in consistency, data sensitivity, and robustness to intransitive preferences. Experiments on large language models demonstrate that SLHF achieves strong alignment across diverse preference datasets, scales from 0.5B to 8B parameters, and yields inference-time refinements that transfer across model families without further fine-tuning.