Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment

📄 arXiv: 2408.06266v5 📥 PDF

作者: Karel D'Oosterlinck, Winnie Xu, Chris Develder, Thomas Demeester, Amanpreet Singh, Christopher Potts, Douwe Kiela, Shikib Mehri

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-08-12 (更新: 2024-09-14)

🔗 代码/项目: GITHUB


💡 一句话要点

提出CLAIR和APO,增强LLM对齐训练的对比性和可控性,显著提升模型性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对齐训练 偏好优化 对比学习 数据生成

📋 核心要点

  1. 现有LLM对齐方法在对比学习和偏好优化方面存在不足,导致模型性能受限。
  2. 论文提出CLAIR数据生成方法,创建更具对比性的偏好对,并提出APO对齐目标,增强训练过程的可控性。
  3. 实验表明,CLAIR和APO的结合显著提升Llama-3-8B-Instruct的性能,缩小与GPT4-turbo的差距。

📝 摘要(中文)

大型语言模型(LLMs)通常使用对比对齐目标和偏好对数据集进行对齐。模型、配对数据和目标之间的相互作用使对齐成为一个复杂的过程,有时会产生次优的结果。我们对此进行了研究,发现(i)当底层响应具有对比性时,偏好数据会提供更好的学习信号,并且(ii)当对齐目标在训练期间指定对模型的更多控制时,对齐目标会带来更好的性能。基于这些见解,我们引入了Contrastive Learning from AI Revisions (CLAIR),这是一种数据创建方法,可以产生更具对比性的偏好对,以及Anchored Preference Optimization (APO),这是一种可控且更稳定的对齐目标。我们使用各种可比较的数据集和对齐目标对Llama-3-8B-Instruct进行对齐,并测量MixEval-Hard分数,该分数与人类判断高度相关。CLAIR偏好在所有数据集中产生了最强的性能,并且APO始终优于可控性较差的目标。我们最好的模型,使用32K CLAIR偏好与APO进行训练,将Llama-3-8B-Instruct提高了7.65%,缩小了与GPT4-turbo的差距45%。我们的代码可在https://github.com/ContextualAI/CLAIR_and_APO获得。

🔬 方法详解

问题定义:现有的大型语言模型对齐方法,依赖于偏好对数据和对比学习目标。然而,这些方法常常面临数据质量不高(对比性不足)和训练目标控制不足的问题。对比性不足的偏好对数据,会降低学习信号的有效性,而缺乏对模型训练过程的有效控制,则可能导致训练不稳定和性能下降。因此,如何生成高质量的对比偏好数据,并设计更可控的对齐目标,是当前LLM对齐面临的关键问题。

核心思路:论文的核心思路是,通过改进数据生成和优化目标,来增强LLM对齐训练的对比性和可控性。具体来说,首先提出CLAIR方法,通过AI修订的方式生成更具对比性的偏好对数据。然后,提出APO对齐目标,通过引入锚定机制,增强对模型训练过程的控制,从而提高训练的稳定性和性能。这种双管齐下的方法,旨在解决现有方法在数据质量和训练控制方面的不足。

技术框架:整体框架包含两个主要部分:CLAIR数据生成和APO对齐优化。CLAIR首先使用一个初始模型生成多个候选回复,然后使用另一个模型(AI修订模型)对这些回复进行修改,生成更具对比性的偏好对。APO则是在标准的偏好优化目标的基础上,引入一个锚定项,用于约束模型的输出,使其更接近于期望的输出。整个流程是,首先使用CLAIR生成的数据训练模型,然后使用APO进行微调,以进一步提升模型的性能。

关键创新:论文的关键创新在于CLAIR数据生成方法和APO对齐目标。CLAIR通过AI修订的方式,能够有效地生成更具对比性的偏好对数据,从而提高学习信号的质量。APO通过引入锚定项,增强了对模型训练过程的控制,从而提高了训练的稳定性和性能。与现有方法相比,CLAIR和APO的结合,能够更有效地利用偏好数据,并更稳定地训练LLM。

关键设计:CLAIR的关键设计在于AI修订模型的选择和修订策略。APO的关键设计在于锚定项的设置和锚定强度的调整。具体来说,AI修订模型需要具有较强的生成能力和修改能力,以便能够生成更具对比性的回复。锚定项需要能够有效地约束模型的输出,使其更接近于期望的输出,同时又不能过度约束模型,导致模型失去生成能力。锚定强度的调整需要根据具体的任务和数据集进行调整,以达到最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用CLAIR生成的偏好数据,结合APO对齐目标,能够显著提升Llama-3-8B-Instruct的性能。具体来说,在MixEval-Hard指标上,该方法将Llama-3-8B-Instruct的性能提高了7.65%,缩小了与GPT4-turbo的差距45%。这表明CLAIR和APO能够有效地提高LLM的对齐效果,使其更接近人类的偏好。

🎯 应用场景

该研究成果可广泛应用于各种需要对齐的大型语言模型,例如对话系统、文本生成、代码生成等。通过提升模型的对齐效果,可以提高模型生成内容的质量、安全性和可靠性,从而更好地服务于用户,并降低潜在的风险。此外,该研究提出的数据生成方法和优化目标,也可以为其他相关研究提供借鉴和参考。

📄 摘要(原文)

Large Language Models (LLMs) are often aligned using contrastive alignment objectives and preference pair datasets. The interaction between model, paired data, and objective makes alignment a complicated procedure, sometimes producing subpar results. We study this and find that (i) preference data gives a better learning signal when the underlying responses are contrastive, and (ii) alignment objectives lead to better performance when they specify more control over the model during training. Based on these insights, we introduce Contrastive Learning from AI Revisions (CLAIR), a data-creation method which leads to more contrastive preference pairs, and Anchored Preference Optimization (APO), a controllable and more stable alignment objective. We align Llama-3-8B-Instruct using various comparable datasets and alignment objectives and measure MixEval-Hard scores, which correlate highly with human judgments. The CLAIR preferences lead to the strongest performance out of all datasets, and APO consistently outperforms less controllable objectives. Our best model, trained on 32K CLAIR preferences with APO, improves Llama-3-8B-Instruct by 7.65%, closing the gap with GPT4-turbo by 45%. Our code is available at https://github.com/ContextualAI/CLAIR_and_APO.