Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation

📄 arXiv: 2405.06424v3 📥 PDF

作者: JoonHo Lee, Jae Oh Woo, Juree Seok, Parisa Hassanzadeh, Wooseok Jang, JuYoun Son, Sima Didari, Baruch Gutow, Heng Hao, Hankyu Moon, Wenjun Hu, Yeong-Dae Kwon, Taehee Lee, Seungjai Min

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-05-10 (更新: 2025-01-31)

备注: Accepted to ICML 2024


💡 一句话要点

提出基于代理的语言模型不确定性评估方法,提升指令遵循能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 指令遵循 不确定性估计 奖励模型 贝叶斯近似

📋 核心要点

  1. 现有语言模型在复杂指令下易产生歧义,难以准确评估响应质量。
  2. 提出不确定性感知奖励模型(URM),通过贝叶斯近似估计响应质量的不确定性。
  3. 实验表明,URM能有效提升语言模型的指令遵循能力,并在多个基准测试中超越现有方法。

📝 摘要(中文)

评估语言模型对指令的响应质量至关重要,但由于人类语言在不同语境下的复杂性,这项任务极具挑战。这种复杂性常常导致模糊或不一致的解释,使得准确评估变得困难。为了解决这个问题,我们提出了一种新颖的、具有不确定性意识的奖励模型(URM),该模型引入了基于贝叶斯近似的、对配对响应质量的鲁棒不确定性估计。我们的不确定性代理不仅可以为响应评分,还可以评估其内在的不确定性,该模型使用偏好数据集进行训练。实验结果表明,将所提出的代理纳入语言模型训练具有显著优势。我们的方法通过改进训练的数据管理和优化策略目标,提高了语言模型的指令遵循能力,从而在Vicuna和MT-bench等基准测试中大幅超越了现有方法。这些发现表明,我们提出的方法大大推进了语言模型训练,并为利用语言模型中的不确定性开辟了一条新途径。

🔬 方法详解

问题定义:论文旨在解决语言模型在指令遵循任务中响应质量评估的问题。现有方法难以准确评估响应,尤其是在面对复杂或模糊的指令时,因为人类语言的复杂性导致模型产生歧义或不一致的理解。现有奖励模型无法有效衡量和利用响应的不确定性,从而影响了模型的训练效果。

核心思路:论文的核心思路是引入不确定性估计来增强奖励模型,使其能够更好地评估语言模型响应的质量。通过量化响应的不确定性,可以更有效地进行数据筛选和策略优化,从而提升语言模型的指令遵循能力。核心在于利用贝叶斯近似来估计响应质量的不确定性,并将其融入到奖励模型中。

技术框架:整体框架包含以下几个主要阶段:1) 使用偏好数据集训练不确定性感知奖励模型(URM),该模型能够为每个响应输出一个奖励值和一个不确定性估计。2) 利用URM对训练数据进行筛选,优先选择高质量且不确定性低的样本。3) 使用筛选后的数据训练语言模型,并结合URM的不确定性估计来优化策略目标。该框架的核心是URM,它充当了一个代理,不仅评估响应的质量,还评估其内在的不确定性。

关键创新:最重要的技术创新点在于提出了不确定性感知奖励模型(URM),该模型能够对语言模型响应的质量进行鲁棒的不确定性估计。与现有奖励模型相比,URM不仅输出一个奖励值,还输出一个不确定性估计,从而能够更全面地评估响应的质量。这种不确定性估计可以用于数据筛选和策略优化,从而提升语言模型的指令遵循能力。

关键设计:URM基于贝叶斯近似,使用变分推理来估计响应质量的后验分布。具体来说,URM使用一个神经网络来参数化后验分布的均值和方差,并使用变分下界作为训练目标。损失函数包括一个奖励预测损失和一个不确定性正则化项,用于鼓励模型学习准确的不确定性估计。在训练语言模型时,可以使用不同的策略优化算法,例如PPO,并结合URM的不确定性估计来调整奖励信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的URM方法在Vicuna和MT-bench等基准测试中大幅超越了现有方法。具体来说,URM能够显著提高语言模型的指令遵循能力,并在生成高质量响应方面取得显著进展。量化结果显示,URM在各项指标上均优于基线模型,证明了其有效性。

🎯 应用场景

该研究成果可应用于各种需要语言模型遵循指令的场景,例如智能助手、聊天机器人、代码生成等。通过提高语言模型的指令遵循能力,可以显著提升用户体验和任务完成效率。未来,该方法还可以扩展到其他类型的语言模型和任务,例如文本摘要、机器翻译等。

📄 摘要(原文)

Assessing response quality to instructions in language models is vital but challenging due to the complexity of human language across different contexts. This complexity often results in ambiguous or inconsistent interpretations, making accurate assessment difficult. To address this issue, we propose a novel Uncertainty-aware Reward Model (URM) that introduces a robust uncertainty estimation for the quality of paired responses based on Bayesian approximation. Trained with preference datasets, our uncertainty-enabled proxy not only scores rewards for responses but also evaluates their inherent uncertainty. Empirical results demonstrate significant benefits of incorporating the proposed proxy into language model training. Our method boosts the instruction following capability of language models by refining data curation for training and improving policy optimization objectives, thereby surpassing existing methods by a large margin on benchmarks such as Vicuna and MT-bench. These findings highlight that our proposed approach substantially advances language model training and paves a new way of harnessing uncertainty within language models.