Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models
作者: Zhengxuan Wu, Yuhao Zhang, Peng Qi, Yumo Xu, Rujun Han, Yian Zhang, Jifan Chen, Bonan Min, Zhiheng Huang
分类: cs.CL
发布日期: 2024-07-31
备注: preprint
💡 一句话要点
提出ReSet方法,在指令跟随和忠实性之间实现语言模型性能提升
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令跟随 忠实性 语言模型 拒绝采样 自我指令调整
📋 核心要点
- 现有语言模型在指令跟随和忠实性之间存在trade-off,难以同时保证两者性能。
- ReSet方法通过拒绝采样进行持续的自我指令调整,旨在解决指令跟随和忠实性之间的矛盾。
- 实验表明,ReSet方法优于传统多任务学习,且使用更少的高质量数据即可获得更优结果。
📝 摘要(中文)
现代语言模型需要在遵循人类指令的同时保持忠实性,但它们往往难以兼顾两者。本文提供了具体证据,表明在训练语言模型时,指令跟随(即遵循开放式指令)和忠实性(即基于给定上下文生成响应)之间存在权衡。例如,在指令跟随数据集上微调LLaMA-7B会降低其忠实性。相反,经过指令调整的Vicuna-7B在需要上下文接地的任务上进一步优化时,其遵循指令的性能会下降。一种常见的补救方法是使用数据混合进行多任务学习(MTL),但它远未实现协同效应。本文提出了一种简单而有效的方法,该方法依赖于拒绝采样进行持续的自我指令调整(ReSet),该方法明显优于vanilla MTL。令人惊讶的是,研究发现少即是多,因为使用高质量但数据量明显较小(减少三倍)的数据训练ReSet可以产生更好的结果。研究结果有助于更好地理解语言模型对齐训练中的目标差异。
🔬 方法详解
问题定义:现有语言模型在指令跟随和忠实性之间存在固有的矛盾。当模型针对指令跟随进行优化时,其基于上下文生成准确响应的能力会下降;反之亦然。传统的多任务学习方法试图通过混合不同类型的数据来缓解这个问题,但效果并不理想。因此,如何有效地平衡指令跟随和忠实性,是本文要解决的核心问题。
核心思路:ReSet的核心思路是利用拒绝采样来选择更符合指令跟随和忠实性要求的样本,并进行持续的自我指令调整。通过这种方式,模型可以在训练过程中不断地学习和适应,从而更好地平衡这两个目标。这种方法的核心在于,它不是简单地混合数据,而是有选择性地利用数据,从而更有效地利用有限的训练资源。
技术框架:ReSet方法主要包含以下几个阶段:1) 使用初始语言模型生成候选响应;2) 使用奖励模型(reward model)评估候选响应的指令跟随和忠实性;3) 使用拒绝采样策略,根据奖励模型的评分选择高质量的样本;4) 使用选择的样本对语言模型进行持续的自我指令调整。整个过程迭代进行,不断提升模型的性能。
关键创新:ReSet的关键创新在于其拒绝采样策略和持续的自我指令调整机制。拒绝采样策略能够有效地筛选出高质量的训练样本,避免了低质量样本对模型训练的干扰。持续的自我指令调整机制则使得模型能够在训练过程中不断地学习和适应,从而更好地平衡指令跟随和忠实性。与传统的多任务学习方法相比,ReSet方法更加注重数据的质量和选择,而不是简单地混合数据。
关键设计:ReSet的关键设计包括:1) 奖励模型的选择和训练,奖励模型需要能够准确地评估候选响应的指令跟随和忠实性;2) 拒绝采样策略的参数设置,例如采样阈值的选择;3) 自我指令调整的学习率和训练轮数等超参数的设置。此外,论文还强调了高质量数据的重要性,并发现使用更少的高质量数据可以获得更好的结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReSet方法在指令跟随和忠实性方面均优于传统的多任务学习方法。更令人惊讶的是,使用高质量但数据量减少三倍的数据训练ReSet,仍然可以获得更好的性能。这表明数据质量比数据量更重要,ReSet方法能够更有效地利用有限的训练资源。
🎯 应用场景
该研究成果可应用于各种需要语言模型同时具备指令跟随和忠实性的场景,例如智能助手、问答系统、对话生成等。通过ReSet方法,可以训练出更加可靠和实用的语言模型,提升用户体验,并减少模型产生错误或误导性信息的风险。未来,该方法还可以扩展到其他类型的语言模型和任务中。
📄 摘要(原文)
Modern language models (LMs) need to follow human instructions while being faithful; yet, they often fail to achieve both. Here, we provide concrete evidence of a trade-off between instruction following (i.e., follow open-ended instructions) and faithfulness (i.e., ground responses in given context) when training LMs with these objectives. For instance, fine-tuning LLaMA-7B on instruction following datasets renders it less faithful. Conversely, instruction-tuned Vicuna-7B shows degraded performance at following instructions when further optimized on tasks that require contextual grounding. One common remedy is multi-task learning (MTL) with data mixing, yet it remains far from achieving a synergic outcome. We propose a simple yet effective method that relies on Rejection Sampling for Continued Self-instruction Tuning (ReSet), which significantly outperforms vanilla MTL. Surprisingly, we find that less is more, as training ReSet with high-quality, yet substantially smaller data (three-fold less) yields superior results. Our findings offer a better understanding of objective discrepancies in alignment training of LMs.