ComPO: Preference Alignment via Comparison Oracles
作者: Peter Chen, Xi Chen, Wotao Yin, Tianyi Lin
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-08 (更新: 2025-10-25)
备注: Accepted to NeurIPS 2025
💡 一句话要点
提出ComPO,通过比较Oracle进行偏好对齐,解决LLM中的噪声偏好问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 偏好对齐 大型语言模型 比较Oracle 零阶优化 噪声偏好 直接对齐 人类反馈 指令微调
📋 核心要点
- 现有直接对齐方法在对齐LLM与人类偏好时,易受冗余和似然位移的影响,源于噪声偏好对。
- ComPO方法基于零阶比较优化,利用比较Oracle进行偏好对齐,并保证了基本方案的收敛性。
- 实验表明,ComPO方法在多个模型和基准测试中有效,尤其擅长处理具有不同似然裕度的偏好对。
📝 摘要(中文)
直接对齐方法越来越多地被用于将大型语言模型(LLM)与人类偏好对齐。然而,这些方法存在冗余和似然位移的问题,这些问题可能是由噪声偏好对引起的,这些噪声偏好对为首选和非首选响应产生相似的似然。本文的贡献是双重的。首先,我们提出了一种新的偏好对齐方法,该方法基于零阶、基于比较的优化,通过比较Oracle,并为其基本方案提供收敛保证。其次,我们使用一些启发式方法改进了我们的方法,并进行实验以证明实际方案在利用噪声偏好对提高LLM性能方面的灵活性和兼容性。评估在多个基础模型和指令调整模型(Mistral-7B、Llama-3-8B 和 Gemma-2-9B)上进行,并使用基准(AlpacaEval 2、MT-Bench 和 Arena-Hard)。实验结果表明,我们的方法作为解决现有直接对齐方法局限性的替代方案是有效的。我们工作的一个亮点是,我们证明了为具有不同似然裕度的偏好对设计专门方法的重要性,这补充了 Razin et al (2025) 的最新发现。
🔬 方法详解
问题定义:现有直接对齐方法在训练LLM以符合人类偏好时,容易受到噪声偏好对的影响。这些噪声偏好对导致模型对首选和非首选响应产生相似的概率,从而降低了对齐的有效性,并导致冗余和似然位移等问题。
核心思路:ComPO的核心思路是通过比较Oracle来学习偏好,而不是直接依赖于概率似然。比较Oracle提供了一种判断两个响应哪个更符合人类偏好的方式,即使它们的似然得分相似。这种方法可以减少噪声偏好对的影响,并更有效地对齐模型。
技术框架:ComPO方法主要包含以下几个阶段:1)收集人类偏好数据,形成偏好对;2)使用比较Oracle判断偏好对中哪个响应更优;3)利用比较结果,通过零阶优化算法更新模型参数,使得模型生成的响应更符合人类偏好。整个过程迭代进行,直到模型收敛。
关键创新:ComPO的关键创新在于使用比较Oracle进行偏好学习,而不是直接优化似然函数。这种方法可以有效地处理噪声偏好对,并提高对齐的鲁棒性。此外,ComPO采用零阶优化算法,避免了计算梯度,降低了计算复杂度。
关键设计:ComPO的关键设计包括:1)比较Oracle的设计,需要保证其判断的准确性和效率;2)零阶优化算法的选择,需要考虑其收敛速度和稳定性;3)启发式方法的应用,用于进一步提高ComPO的性能,例如针对不同似然裕度的偏好对设计专门的处理方式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ComPO方法在Mistral-7B、Llama-3-8B和Gemma-2-9B等多个模型上均取得了显著的性能提升。在AlpacaEval 2、MT-Bench和Arena-Hard等基准测试中,ComPO的表现优于现有的直接对齐方法。尤其值得一提的是,ComPO在处理具有不同似然裕度的偏好对时表现出色,验证了其在噪声环境下的鲁棒性。
🎯 应用场景
ComPO方法可广泛应用于各种需要将LLM与人类偏好对齐的场景,例如对话系统、内容生成、代码生成等。通过提高LLM的对齐质量,ComPO可以提升用户体验,减少有害内容的生成,并促进LLM在实际应用中的可靠性和安全性。该方法对于构建更安全、更负责任的AI系统具有重要意义。
📄 摘要(原文)
Direct alignment methods are increasingly used for aligning large language models (LLMs) with human preferences. However, these methods suffer from the issues of verbosity and likelihood displacement, which can be driven by the noisy preference pairs that induce similar likelihood for preferred and dispreferred responses. The contributions of this paper are two-fold. First, we propose a new preference alignment method based on zeroth-order, comparison-based optimization via comparison oracles and provide convergence guarantees for its basic scheme. Second, we improve our method using some heuristics and conduct the experiments to demonstrate the flexibility and compatibility of practical scheme in improving the performance of LLMs using noisy preference pairs. Evaluations are conducted across multiple base and instruction-tuned models (Mistral-7B, Llama-3-8B and Gemma-2-9B) with benchmarks (AlpacaEval 2, MT-Bench and Arena-Hard). Experimental results show the effectiveness of our method as an alternative to addressing the limitations of existing direct alignment methods. A highlight of our work is that we evidence the importance of designing specialized methods for preference pairs with distinct likelihood margin, which complements the recent findings in Razin et al (2025).