APO: Alpha-Divergence Preference Optimization

作者: Wang Zixian

分类: cs.LG, cs.AI

发布日期: 2025-12-28

💡 一句话要点

提出Alpha-Divergence偏好优化(APO)，在锚定框架下实现前向和反向KL散度的平滑插值，提升对齐训练的稳定性和性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 偏好优化 强化学习 人类反馈 KL散度 Csiszar alpha散度 锚定方法 对齐训练

📋 核心要点

现有对齐方法依赖前向或反向KL散度，前者稳定但欠利用高奖励模式，后者易崩溃。需要一种能平衡探索与利用的策略。
APO通过Csiszar alpha散度在锚定框架内插值前向和反向KL散度，实现探索与利用的动态平衡，提升训练稳定性。
实验表明，APO在数学问题上与现有方法性能相当，同时保持了训练的稳定性，验证了其有效性。

📝 摘要（中文）

现代对齐实践主要采用两种散度机制。监督微调和许多蒸馏式目标隐式地最小化前向KL散度KL(q || pi_theta)，产生稳定的模式覆盖更新，但通常未能充分利用高奖励模式。相反，PPO风格的在线人类反馈强化学习更接近于反向KL散度KL(pi_theta || q)，能够实现模式寻找改进，但也存在模式崩溃的风险。最近的锚定方法，如ADPO，表明在锚定坐标中执行投影可以显著提高稳定性，但它们通常只采用单一散度。我们引入了Alpha-Divergence偏好优化(APO)，这是一个锚定框架，它使用Csiszar alpha散度在相同的锚定几何结构中连续地在前向和反向KL行为之间进行插值。我们推导了由alpha参数化的统一梯度动态，分析了梯度方差特性，并提出了一种实用的奖励和置信度保护的alpha调度方法，该方法仅在策略改进且置信度校准时才从覆盖过渡到利用。在Qwen3-1.7B上使用math-level3进行的实验表明，APO在保持训练稳定性的同时，实现了与GRPO和GSPO基线相当的性能。

🔬 方法详解

问题定义：现有基于KL散度的对齐方法存在trade-off。前向KL散度（如监督微调）倾向于覆盖所有模式，但可能无法充分利用高奖励的模式。反向KL散度（如PPO）则倾向于寻找高奖励模式，但容易导致模式崩溃，训练不稳定。因此，需要一种方法能够在探索（覆盖）和利用（寻找高奖励）之间进行平衡，同时保证训练的稳定性。

核心思路：APO的核心思路是利用Csiszar alpha散度，在同一个锚定几何框架下，连续地插值前向和反向KL散度。通过调整alpha参数，可以控制策略更新的行为，使其在覆盖和寻找高奖励模式之间平滑过渡。当策略不够好或者置信度不高时，倾向于覆盖，保证稳定性；当策略足够好且置信度高时，倾向于寻找高奖励模式，提升性能。

技术框架：APO的整体框架基于锚定方法，即在锚定坐标系下进行策略更新。具体流程如下：1. 使用参考策略（锚点）定义锚定坐标系。2. 使用Csiszar alpha散度定义目标函数，该目标函数可以插值前向和反向KL散度。3. 推导目标函数的梯度，并使用梯度更新策略。4. 使用奖励和置信度引导的alpha调度策略，动态调整alpha参数，控制探索和利用的平衡。

关键创新：APO的关键创新在于：1. 使用Csiszar alpha散度统一了前向和反向KL散度，实现了平滑插值。2. 提出了奖励和置信度引导的alpha调度策略，能够根据策略的性能和置信度动态调整alpha参数，实现自适应的探索和利用平衡。3. 在锚定框架下进行优化，提高了训练的稳定性。与现有方法的本质区别在于，APO不是固定使用前向或反向KL散度，而是根据策略的状态动态调整，从而更好地平衡探索和利用。

关键设计：APO的关键设计包括：1. Csiszar alpha散度的具体形式，以及如何将其应用于策略优化。2. 奖励和置信度引导的alpha调度策略，包括奖励和置信度的计算方法，以及如何将其映射到alpha参数。3. 锚定策略的具体实现，包括如何选择参考策略，以及如何在锚定坐标系下进行策略更新。

🖼️ 关键图片

📊 实验亮点

实验结果表明，APO在Qwen3-1.7B模型上，使用math-level3数据集进行训练时，能够达到与GRPO和GSPO等基线方法相当的性能，同时保持了训练的稳定性。这验证了APO在平衡探索和利用方面的有效性，以及其在实际应用中的潜力。

🎯 应用场景

APO可应用于各种需要人类反馈对齐的场景，如对话系统、文本生成、代码生成等。它能够提升模型生成内容的质量和安全性，并降低训练过程中的不稳定风险。该方法在教育、客服、内容创作等领域具有广泛的应用前景。

📄 摘要（原文）

Two divergence regimes dominate modern alignment practice. Supervised fine-tuning and many distillation-style objectives implicitly minimize the forward KL divergence KL(q || pi_theta), yielding stable mode-covering updates but often under-exploiting high-reward modes. In contrast, PPO-style online reinforcement learning from human feedback behaves closer to reverse KL divergence KL(pi_theta || q), enabling mode-seeking improvements but risking mode collapse. Recent anchored methods, such as ADPO, show that performing the projection in anchored coordinates can substantially improve stability, yet they typically commit to a single divergence. We introduce Alpha-Divergence Preference Optimization (APO), an anchored framework that uses Csiszar alpha-divergence to continuously interpolate between forward and reverse KL behavior within the same anchored geometry. We derive unified gradient dynamics parameterized by alpha, analyze gradient variance properties, and propose a practical reward-and-confidence-guarded alpha schedule that transitions from coverage to exploitation only when the policy is both improving and confidently calibrated. Experiments on Qwen3-1.7B with math-level3 demonstrate that APO achieves competitive performance with GRPO and GSPO baselines while maintaining training stability.

APO: Alpha-Divergence Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理