TSO: Self-Training with Scaled Preference Optimization

📄 arXiv: 2409.02118v1 📥 PDF

作者: Kaihui Chen, Hao Yi, Qingyang Li, Tianyu Qi, Yulan Hu, Fuzheng Zhang, Yong Liu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-08-31


💡 一句话要点

TSO:通过缩放偏好优化进行自训练,提升LLM与人类偏好的一致性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型对齐 偏好优化 自训练 模型矩阵 人类反馈

📋 核心要点

  1. 现有离线偏好优化方法依赖于高质量的成对偏好样本,而迭代方法需要额外训练奖励模型来选择正负样本,成本较高。
  2. TSO通过构建模型矩阵并结合人类偏好,增强响应多样性,并利用人类和AI反馈纠正模型偏好误差,无需额外奖励模型。
  3. 实验结果表明,TSO在多个对齐评估基准上超越了现有主流方法,验证了其在偏好数据构建和模型训练策略上的有效性。

📝 摘要(中文)

本文提出了一种名为TSO(Self-Training with Scaled Preference Optimization,基于缩放偏好优化的自训练)的框架,用于偏好优化,该框架无需训练额外的奖励模型即可进行自训练偏好学习。TSO通过构建模型矩阵并结合人类偏好响应来增强响应的多样性。此外,TSO通过人类和AI反馈来纠正模型偏好误差。最后,TSO采用迭代和双重裁剪奖励策略来更新参考模型及其响应,自适应地调整偏好数据并平衡优化过程。实验结果表明,TSO在各种对齐评估基准上优于现有的主流方法,为对齐领域中的偏好数据构建和模型训练策略提供了实践见解。

🔬 方法详解

问题定义:现有的大语言模型(LLM)偏好对齐方法,如DPO等,要么依赖于高质量的成对偏好数据,要么需要训练额外的奖励模型来选择正负样本,这增加了训练的复杂性和成本。此外,随着LLM能力的提升,从模型自身生成的结果中持续构建高质量的正负偏好实例变得越来越困难,因为缺乏多样性。

核心思路:TSO的核心思路是通过自训练的方式,在没有额外奖励模型的情况下进行偏好优化。它通过构建一个模型矩阵来增加生成响应的多样性,并结合人类偏好数据来指导模型的学习。同时,利用人类和AI的反馈来纠正模型在偏好上的错误,从而提高模型的对齐效果。

技术框架:TSO框架主要包含以下几个阶段:1) 模型矩阵构建:通过多个模型的组合生成多样化的响应。2) 偏好数据收集:收集人类对模型生成响应的偏好数据。3) 偏好误差纠正:利用人类和AI的反馈来纠正模型在偏好上的错误。4) 迭代优化:采用迭代和双重裁剪奖励策略来更新参考模型及其响应,自适应地调整偏好数据并平衡优化过程。

关键创新:TSO的关键创新在于其自训练的偏好优化框架,该框架无需训练额外的奖励模型,而是通过模型矩阵和人类/AI反馈来增强响应的多样性和纠正偏好误差。此外,TSO还采用了迭代和双重裁剪奖励策略,以更好地平衡优化过程。

关键设计:TSO的关键设计包括:1) 模型矩阵的构建方式:具体如何选择和组合不同的模型来生成多样化的响应。2) 偏好误差纠正机制:如何有效地利用人类和AI的反馈来纠正模型在偏好上的错误。3) 迭代和双重裁剪奖励策略:如何设置裁剪的阈值和迭代的次数,以达到最佳的优化效果。这些参数的具体设置可能需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TSO在多个对齐评估基准上优于现有的主流方法,证明了其在偏好数据构建和模型训练策略上的有效性。具体的性能数据和提升幅度在论文中详细展示,表明TSO能够显著提高LLM与人类偏好的一致性。

🎯 应用场景

TSO方法可应用于各种需要对齐人类偏好的大语言模型应用场景,例如对话系统、文本生成、内容推荐等。通过提高模型与人类偏好的一致性,可以提升用户体验,减少模型产生有害或不当内容的风险,并促进人机协作。

📄 摘要(原文)

Enhancing the conformity of large language models (LLMs) to human preferences remains an ongoing research challenge. Recently, offline approaches such as Direct Preference Optimization (DPO) have gained prominence as attractive options due to offering effective improvement in simple, efficient, and stable without interactions with reward models. However, these offline preference optimization methods highly rely on the quality of pairwise preference samples. Meanwhile, numerous iterative methods require additional training of reward models to select positive and negative samples from the model's own generated responses for preference learning. Furthermore, as LLMs' capabilities advance, it is quite challenging to continuously construct high-quality positive and negative preference instances from the model's outputs due to the lack of diversity. To tackle these challenges, we propose TSO, or Self-Training with Scaled Preference Optimization, a framework for preference optimization that conducts self-training preference learning without training an additional reward model. TSO enhances the diversity of responses by constructing a model matrix and incorporating human preference responses. Furthermore, TSO introduces corrections for model preference errors through human and AI feedback. Finally, TSO adopts iterative and dual clip reward strategies to update the reference model and its responses, adaptively adjusting preference data and balancing the optimization process. Experimental results demonstrate that TSO outperforms existing mainstream methods on various alignment evaluation benchmarks, providing practical insight into preference data construction and model training strategies in the alignment domain.