S-SPPO: Semantic-Calibrated Self-Play Preference Optimization

📄 arXiv: 2606.01561v1 📥 PDF

作者: Xiwen Chen, Wenhui Zhu, Jingjing Wang, Peijie Qiu, Zhipeng Wang, Huayu Li, ZhengXiao He, Xuanzhao Dong, Prayag Tiwari, Mingkun Xu, Yujian Xiong, Feng Luo, Abolfazl Razi, Brendan Hogan Rappazzo, Anderson Schneider, Yuriy Nevmyvaka

分类: cs.AI, cs.LG

发布日期: 2026-06-01

备注: Accepted by ICML2026

🔗 代码/项目: GITHUB


💡 一句话要点

S-SPPO:通过语义校准的自博弈偏好优化,解决LLM对齐中的策略退化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自博弈偏好优化 大型语言模型对齐 语义校准 策略退化 表示学习

📋 核心要点

  1. 现有SPPO方法在对齐LLM时,易因语义相似回复的过度自信预测导致策略退化。
  2. S-SPPO通过语义门控和潜在排斥的双空间校准,维持策略多样性并防止流形崩溃。
  3. 实验表明,S-SPPO在AlpacaEval 2.0上显著提升胜率,且无需额外人工标注数据。

📝 摘要(中文)

将大型语言模型(LLM)与人类偏好对齐通常通过直接偏好优化(DPO)实现。然而,DPO的标准Bradley-Terry实例化在建模人类偏好中常见的非传递性偏差方面存在局限性。为了解决这个问题,最近的研究引入了自博弈偏好优化(SPPO),它通过在自生成的胜负对上训练来迭代地改进策略。我们的研究揭示了SPPO中的一个关键不稳定因素:当偏好预言机对语义上无法区分的响应赋予过于自信的胜利时,优化容易导致策略退化。为了缓解这个问题,我们提出了S-SPPO,一个双空间语义校准框架,包括:i) 通过语义门控的监督校准,随着语义重叠的增加,将胜率目标退火到最大熵基线;ii) 通过潜在排斥的表示校准,以强制几何多样性,防止流形崩溃,并保持选择和拒绝样本之间的潜在多样性。从理论上讲,我们证明了校准保留了常数和博弈结构,从而促进了收敛到纳什均衡。在实验上,S-SPPO避免了先前方法中出现的性能下降,在使用Llama-3-8B的情况下,在AlpacaEval 2.0上实现了52.19%的胜率和47.46%的长度控制胜率,而无需在训练期间使用额外的人工标注偏好。

🔬 方法详解

问题定义:SPPO在训练过程中,如果偏好模型对语义相似的回复给予过高的置信度,会导致策略坍塌,模型生成的内容会变得单一且缺乏多样性。现有的SPPO方法没有有效地解决这个问题,导致模型性能下降。

核心思路:S-SPPO的核心思路是通过语义校准来稳定SPPO的训练过程。具体来说,它通过两种方式进行校准:一是监督校准,通过语义门控来降低语义相似回复的胜率目标;二是表示校准,通过潜在排斥来增加选择和拒绝样本之间的潜在多样性。这样设计的目的是为了防止模型过度自信地预测语义相似的回复,并鼓励模型生成更多样化的内容。

技术框架:S-SPPO包含两个主要的校准模块:监督校准和表示校准。监督校准模块使用语义门控机制,根据选择和拒绝样本的语义相似度来调整胜率目标。当语义相似度较高时,胜率目标会向最大熵基线退火,从而降低模型对相似回复的置信度。表示校准模块通过潜在排斥损失来增加选择和拒绝样本在潜在空间中的距离,从而鼓励模型学习更具区分性的表示。整个训练过程仍然基于SPPO的自博弈框架,但加入了这两个校准模块来稳定训练过程。

关键创新:S-SPPO的关键创新在于提出了双空间语义校准框架,该框架能够有效地缓解SPPO中的策略退化问题。与现有的SPPO方法相比,S-SPPO不需要额外的人工标注数据,而是通过自博弈的方式来学习偏好模型。此外,S-SPPO的语义校准机制能够更好地建模人类偏好的非传递性,从而提高模型的对齐效果。

关键设计:在监督校准模块中,语义相似度通过计算选择和拒绝样本的embedding之间的余弦相似度来衡量。语义门控系数根据语义相似度进行调整,从而控制胜率目标的退火程度。在表示校准模块中,潜在排斥损失通过计算选择和拒绝样本的embedding之间的距离来衡量,并将其添加到总损失函数中。损失函数的权重需要仔细调整,以平衡偏好优化和多样性保持。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

S-SPPO在AlpacaEval 2.0上取得了显著的性能提升,胜率达到52.19%,长度控制胜率达到47.46%,优于现有的SPPO方法。该方法在训练过程中没有使用额外的人工标注偏好数据,证明了其在自博弈框架下的有效性。实验结果表明,S-SPPO能够有效地缓解策略退化问题,提高生成内容的多样性和质量。

🎯 应用场景

S-SPPO可应用于各种需要将大型语言模型与人类偏好对齐的场景,例如对话系统、文本生成、代码生成等。该方法能够提高生成内容的质量、多样性和安全性,使其更符合人类的期望和价值观。此外,S-SPPO无需额外的人工标注数据,降低了训练成本,使其更易于部署和应用。

📄 摘要(原文)

Aligning Large Language Models (LLMs) with human preferences is often formulated via Direct Preference Optimization (DPO). However, the standard Bradley-Terry instantiation of DPO is limited in modeling common departures from transitivity in human preferences. To address this, recent work has introduced Self-Play Preference Optimization (SPPO), which iteratively refines the policy by training on self-generated win-lose pairs. Our investigation, however, reveals a critical instability in SPPO: the optimization is prone to policy degeneration when the preference oracle assigns overly confident wins to semantically indistinguishable responses. To mitigate this, we propose S-SPPO, a dual-space semantic calibration framework comprising: i) Supervision Calibration via semantic gating, which anneals win rate targets toward the maximum-entropy baseline as semantic overlap increases; and ii) Representation Calibration via latent repulsion to enforce geometric diversity to prevent manifold collapse and maintain latent diversity between chosen and rejected samples. Theoretically, we show that the calibration preserves the constant-sum game structure, facilitating convergence to a Nash Equilibrium. Empirically, S-SPPO avoids the performance degradation seen in prior methods, achieving 52.19% win rate and 47.46% length-controlled win rate on AlpacaEval 2.0 with Llama-3-8B, without using additional human-annotated preferences during training. The code will be available at https://github.com/xiwenc1/s-sppo.