APO: Alpha-Divergence Preference Optimization

📄 arXiv: 2512.22953v1 📥 PDF

作者: Wang Zixian

分类: cs.LG, cs.AI

发布日期: 2025-12-28


💡 一句话要点

提出Alpha-Divergence偏好优化(APO),在锚定框架下实现前向和反向KL散度的平滑插值,提升对齐训练的稳定性和性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 偏好优化 强化学习 人类反馈 KL散度 Csiszar alpha散度 锚定方法 对齐训练

📋 核心要点

  1. 现有对齐方法依赖前向或反向KL散度,前者稳定但欠利用高奖励模式,后者易崩溃。需要一种能平衡探索与利用的策略。
  2. APO通过Csiszar alpha散度在锚定框架内插值前向和反向KL散度,实现探索与利用的动态平衡,提升训练稳定性。
  3. 实验表明,APO在数学问题上与现有方法性能相当,同时保持了训练的稳定性,验证了其有效性。

📝 摘要(中文)

现代对齐实践主要采用两种散度机制。监督微调和许多蒸馏式目标隐式地最小化前向KL散度KL(q || pi_theta),产生稳定的模式覆盖更新,但通常未能充分利用高奖励模式。相反,PPO风格的在线人类反馈强化学习更接近于反向KL散度KL(pi_theta || q),能够实现模式寻找改进,但也存在模式崩溃的风险。最近的锚定方法,如ADPO,表明在锚定坐标中执行投影可以显著提高稳定性,但它们通常只采用单一散度。我们引入了Alpha-Divergence偏好优化(APO),这是一个锚定框架,它使用Csiszar alpha散度在相同的锚定几何结构中连续地在前向和反向KL行为之间进行插值。我们推导了由alpha参数化的统一梯度动态,分析了梯度方差特性,并提出了一种实用的奖励和置信度保护的alpha调度方法,该方法仅在策略改进且置信度校准时才从覆盖过渡到利用。在Qwen3-1.7B上使用math-level3进行的实验表明,APO在保持训练稳定性的同时,实现了与GRPO和GSPO基线相当的性能。

🔬 方法详解

问题定义:现有基于KL散度的对齐方法存在trade-off。前向KL散度(如监督微调)倾向于覆盖所有模式,但可能无法充分利用高奖励的模式。反向KL散度(如PPO)则倾向于寻找高奖励模式,但容易导致模式崩溃,训练不稳定。因此,需要一种方法能够在探索(覆盖)和利用(寻找高奖励)之间进行平衡,同时保证训练的稳定性。

核心思路:APO的核心思路是利用Csiszar alpha散度,在同一个锚定几何框架下,连续地插值前向和反向KL散度。通过调整alpha参数,可以控制策略更新的行为,使其在覆盖和寻找高奖励模式之间平滑过渡。当策略不够好或者置信度不高时,倾向于覆盖,保证稳定性;当策略足够好且置信度高时,倾向于寻找高奖励模式,提升性能。

技术框架:APO的整体框架基于锚定方法,即在锚定坐标系下进行策略更新。具体流程如下:1. 使用参考策略(锚点)定义锚定坐标系。2. 使用Csiszar alpha散度定义目标函数,该目标函数可以插值前向和反向KL散度。3. 推导目标函数的梯度,并使用梯度更新策略。4. 使用奖励和置信度引导的alpha调度策略,动态调整alpha参数,控制探索和利用的平衡。

关键创新:APO的关键创新在于:1. 使用Csiszar alpha散度统一了前向和反向KL散度,实现了平滑插值。2. 提出了奖励和置信度引导的alpha调度策略,能够根据策略的性能和置信度动态调整alpha参数,实现自适应的探索和利用平衡。3. 在锚定框架下进行优化,提高了训练的稳定性。与现有方法的本质区别在于,APO不是固定使用前向或反向KL散度,而是根据策略的状态动态调整,从而更好地平衡探索和利用。

关键设计:APO的关键设计包括:1. Csiszar alpha散度的具体形式,以及如何将其应用于策略优化。2. 奖励和置信度引导的alpha调度策略,包括奖励和置信度的计算方法,以及如何将其映射到alpha参数。3. 锚定策略的具体实现,包括如何选择参考策略,以及如何在锚定坐标系下进行策略更新。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,APO在Qwen3-1.7B模型上,使用math-level3数据集进行训练时,能够达到与GRPO和GSPO等基线方法相当的性能,同时保持了训练的稳定性。这验证了APO在平衡探索和利用方面的有效性,以及其在实际应用中的潜力。

🎯 应用场景

APO可应用于各种需要人类反馈对齐的场景,如对话系统、文本生成、代码生成等。它能够提升模型生成内容的质量和安全性,并降低训练过程中的不稳定风险。该方法在教育、客服、内容创作等领域具有广泛的应用前景。

📄 摘要(原文)

Two divergence regimes dominate modern alignment practice. Supervised fine-tuning and many distillation-style objectives implicitly minimize the forward KL divergence KL(q || pi_theta), yielding stable mode-covering updates but often under-exploiting high-reward modes. In contrast, PPO-style online reinforcement learning from human feedback behaves closer to reverse KL divergence KL(pi_theta || q), enabling mode-seeking improvements but risking mode collapse. Recent anchored methods, such as ADPO, show that performing the projection in anchored coordinates can substantially improve stability, yet they typically commit to a single divergence. We introduce Alpha-Divergence Preference Optimization (APO), an anchored framework that uses Csiszar alpha-divergence to continuously interpolate between forward and reverse KL behavior within the same anchored geometry. We derive unified gradient dynamics parameterized by alpha, analyze gradient variance properties, and propose a practical reward-and-confidence-guarded alpha schedule that transitions from coverage to exploitation only when the policy is both improving and confidently calibrated. Experiments on Qwen3-1.7B with math-level3 demonstrate that APO achieves competitive performance with GRPO and GSPO baselines while maintaining training stability.