Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization

📄 arXiv: 2409.11212v1 📥 PDF

作者: Jianing Wang, Yang Zhou, Xiaocheng Zhang, Mengjiao Bao, Peng Yan

分类: cs.CL

发布日期: 2024-09-17

备注: 17 pages


💡 一句话要点

提出不确定性增强偏好优化(UPO),提升LLM自进化性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏好优化 不确定性估计 自进化学习 贝叶斯神经网络

📋 核心要点

  1. 迭代偏好优化是LLM训练的常用范式,但由于循环中存在大量噪声偏好数据,性能仍不理想。
  2. 提出UPO框架,通过不确定性估计和可靠反馈采样,减轻噪声偏好数据的影响,使LLM能够基于更可靠的反馈进行自进化。
  3. 实验结果表明,UPO框架能够有效缓解噪声问题,显著提升迭代偏好优化的性能,鼓励LLM生成高质量且高确定性的回复。

📝 摘要(中文)

本文提出了一种不确定性增强偏好优化(UPO)框架,旨在通过可靠的反馈使大型语言模型(LLM)实现自进化。核心思想是通过执行成对不确定性估计和明智的可靠反馈采样,来减少由当前策略和奖励模型产生的噪声偏好数据。为此,引入了一个估计器模型,该模型在贝叶斯神经网络(BNN)中结合了蒙特卡洛(MC) dropout,以对来自LLM策略的偏好数据执行不确定性估计。与直接基于奖励分数过滤生成响应的现有方法相比,该估计器以成对方式关注模型不确定性,并有效绕过奖励模型的确认偏差问题。此外,还提出了一种不确定性增强的自进化算法,以提高偏好优化的鲁棒性,并鼓励LLM生成具有高奖励和确定性的响应。在多个基准上的大量实验表明,该框架显著缓解了噪声问题,并提高了迭代偏好优化的性能。

🔬 方法详解

问题定义:现有基于迭代偏好优化训练LLM的方法,由于循环过程中产生大量的噪声偏好数据,导致模型训练效果不佳。奖励模型可能存在确认偏差,直接基于奖励分数过滤生成结果会加剧这个问题。因此,如何减少噪声偏好数据的影响,是本文要解决的核心问题。

核心思路:本文的核心思路是通过引入不确定性估计,来识别并过滤掉不可靠的偏好数据。具体来说,就是利用模型自身的不确定性来判断偏好数据的质量,而不是仅仅依赖奖励模型给出的分数。通过关注模型在成对比较中的不确定性,可以有效避免奖励模型的确认偏差。

技术框架:UPO框架包含以下几个主要模块:1) LLM策略模型,负责生成文本响应;2) 奖励模型,用于评估生成响应的质量;3) 估计器模型,基于贝叶斯神经网络(BNN)和蒙特卡洛(MC) dropout,用于估计偏好数据的不确定性;4) 不确定性增强的自进化算法,用于选择可靠的偏好数据进行优化,并鼓励LLM生成高奖励和高确定性的响应。整个流程是一个迭代过程,LLM策略模型生成响应,奖励模型和估计器模型给出反馈,然后利用这些反馈来更新LLM策略模型。

关键创新:最重要的创新点在于引入了估计器模型,利用模型自身的不确定性来评估偏好数据的质量。与直接使用奖励模型分数进行过滤的方法不同,UPO框架关注的是模型在成对比较中的不确定性,从而避免了奖励模型的确认偏差。此外,提出的不确定性增强的自进化算法,也提高了偏好优化的鲁棒性。

关键设计:估计器模型采用贝叶斯神经网络(BNN)结构,并结合蒙特卡洛(MC) dropout进行不确定性估计。具体来说,对于每一对响应,通过多次dropout采样,得到多个预测结果,然后计算这些预测结果的方差,作为不确定性的度量。在自进化算法中,使用不确定性作为权重,来选择可靠的偏好数据进行优化。损失函数的设计也考虑了不确定性,鼓励LLM生成高奖励和高确定性的响应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UPO框架在多个基准测试中显著提升了LLM的性能。例如,在文本摘要任务中,UPO框架相比于基线方法,在ROUGE指标上取得了显著提升。此外,实验还验证了UPO框架能够有效缓解噪声问题,并提高LLM生成响应的确定性。

🎯 应用场景

该研究成果可应用于各种需要高质量文本生成的场景,例如对话系统、文本摘要、机器翻译等。通过提升LLM的自进化能力,可以降低人工干预成本,提高生成文本的质量和可靠性。未来,该方法还可以扩展到其他模态,例如图像和语音生成。

📄 摘要(原文)

Iterative preference optimization has recently become one of the de-facto training paradigms for large language models (LLMs), but the performance is still underwhelming due to too much noisy preference data yielded in the loop. To combat this issue, we present an \textbf{U}ncertainty-enhanced \textbf{P}reference \textbf{O}ptimization (UPO) framework to make the LLM self-evolve with reliable feedback. The key idea is mitigating the noisy preference data derived from the current policy and reward models by performing pair-wise uncertainty estimation and judiciously reliable feedback sampling. To reach this goal, we thus introduce an estimator model, which incorporates Monte Carlo (MC) dropout in Bayesian neural network (BNN) to perform uncertainty estimation for the preference data derived from the LLM policy. Compared to the existing methods that directly filter generated responses based on the reward score, the estimator focuses on the model uncertainty in a pair-wise manner and effectively bypasses the confirmation bias problem of the reward model. Additionally, we also propose an uncertainty-enhanced self-evolution algorithm to improve the robustness of preference optimization and encourage the LLM to generate responses with both high reward and certainty. Extensive experiments over multiple benchmarks demonstrate that our framework substantially alleviates the noisy problem and improves the performance of iterative preference optimization.