MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following
作者: Renze Lou, Kai Zhang, Jian Xie, Yuxuan Sun, Janice Ahn, Hanzi Xu, Yu Su, Wenpeng Yin
分类: cs.CL, cs.AI
发布日期: 2023-12-05 (更新: 2024-03-15)
备注: ICLR 2024. Data, model, and code are available at: https://renzelou.github.io/Muffin/
💡 一句话要点
MUFFIN:通过多方面指令生成,提升大语言模型的指令遵循能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令遵循 大语言模型 数据增强 多方面指令 零样本学习
📋 核心要点
- 现有方法在提升LLM指令遵循能力时,扩展输入易导致模型对输入过敏感,扩展无输入任务则在处理特定输入时效果不佳。
- MUFFIN的核心思想是通过多样化输入的不同方面,自动地为每个输入扩展任务,从而提升模型的泛化能力。
- 实验结果表明,在多个零样本基准测试中,使用MUFFIN训练的LLM在指令遵循方面优于现有方法。
📝 摘要(中文)
为了提升大语言模型(LLMs)的指令遵循能力,通常需要构建大规模的训练数据集。目前主要有两种方案:i) 扩展输入(Scaling-Inputs):增加每个任务指令对应的(输入, 输出)对,以期更好地遵循指令。ii) 扩展无输入任务(Scaling Input-Free Tasks):增加任务数量,每个任务由一个(指令, 输出)对组成(不再需要单独的输入)。然而,采用扩展输入方案训练的LLMs往往对输入过于敏感,导致对指令的误解或不遵守。相反,扩展无输入任务方案需要大量的任务,但在处理扩展输入方案中的实例时,指令遵循效果较差。本文提出了MUFFIN,一种新的指令遵循数据集构建方案。具体而言,我们通过多样化输入的不同方面,自动地按输入扩展任务。在四个零样本基准测试上的实验结果表明,在不同规模下,使用MUFFIN训练的LLMs通常比使用上述两种方案训练的LLMs表现出更优越的指令遵循能力。
🔬 方法详解
问题定义:现有的大语言模型在指令遵循能力上存在不足。具体来说,通过增加每个任务的输入-输出对(Scaling-Inputs)来训练模型,容易导致模型对输入过于敏感,从而无法正确理解和执行指令。而另一种方法,即增加无输入的任务数量(Scaling Input-Free Tasks),虽然可以提高模型的泛化能力,但在处理需要特定输入的任务时,效果并不理想。因此,如何有效地构建训练数据集,提升大语言模型在各种场景下的指令遵循能力是一个关键问题。
核心思路:MUFFIN的核心思路是“按输入扩展任务”,即针对每个输入,通过多样化输入的不同方面来生成多个相关的任务。这种方法旨在解决Scaling-Inputs和Scaling Input-Free Tasks两种方法的局限性。通过关注输入的不同侧面,模型可以学习到更鲁棒的指令理解能力,从而更好地适应各种输入场景。
技术框架:MUFFIN的技术框架主要包括以下几个步骤:1) 收集原始的指令和输入数据。2) 分析输入数据的不同方面(facets),例如,对于图像数据,可以考虑颜色、形状、纹理等不同的方面。3) 基于这些不同的方面,生成多个新的指令和输入对,从而扩展原始的任务。4) 使用扩展后的数据集训练大语言模型。整体流程的关键在于如何有效地识别和利用输入数据的不同方面,以生成高质量的训练数据。
关键创新:MUFFIN最重要的技术创新点在于其“按输入扩展任务”的策略。与传统的Scaling-Inputs和Scaling Input-Free Tasks方法不同,MUFFIN不是简单地增加输入-输出对的数量,而是通过深入分析输入数据的不同方面,生成多个具有不同侧重点的任务。这种方法可以有效地提高模型的泛化能力和指令遵循能力。
关键设计:MUFFIN的关键设计在于如何自动地识别和利用输入数据的不同方面。具体来说,可以使用一些预定义的规则或模板来生成新的指令和输入对。例如,对于文本数据,可以使用同义词替换、句子重组等方法来生成不同的表达方式。对于图像数据,可以使用图像增强技术,如旋转、缩放、裁剪等,来生成不同的视角。此外,还可以使用一些自动化的方法,如生成对抗网络(GANs),来生成更加多样化的输入数据。
📊 实验亮点
实验结果表明,在四个零样本基准测试中,使用MUFFIN训练的LLMs在指令遵循能力方面显著优于使用Scaling-Inputs和Scaling Input-Free Tasks方法训练的LLMs。具体的性能提升幅度取决于具体的任务和模型规模,但总体趋势是MUFFIN能够有效地提高模型的泛化能力和指令遵循能力。
🎯 应用场景
MUFFIN方法可以广泛应用于各种需要指令遵循的大语言模型应用场景,例如智能助手、聊天机器人、代码生成、文本摘要等。通过提升模型的指令遵循能力,可以提高用户体验,减少错误,并拓展大语言模型的应用范围。未来,MUFFIN可以与其他数据增强技术相结合,进一步提升模型的性能。
📄 摘要(原文)
In the realm of large language models (LLMs), enhancing instruction-following capability often involves curating expansive training data. This is achieved through two primary schemes: i) Scaling-Inputs: Amplifying (input, output) pairs per task instruction, aiming for better instruction adherence. ii) Scaling Input-Free Tasks: Enlarging tasks, each composed of an (instruction, output) pair (without requiring a separate input anymore). However, LLMs under Scaling-Inputs tend to be overly sensitive to inputs, leading to misinterpretation or non-compliance with instructions. Conversely, Scaling Input-Free Tasks demands a substantial number of tasks but is less effective in instruction following when dealing with instances in Scaling-Inputs. This work introduces MUFFIN, a new scheme of instruction-following dataset curation. Specifically, we automatically Scale Tasks per Input by diversifying these tasks with various input facets. Experimental results across four zero-shot benchmarks, spanning both Scaling-Inputs and Scaling Input-Free Tasks schemes, reveal that LLMs, at various scales, trained on MUFFIN generally demonstrate superior instruction-following capabilities compared to those trained on the two aforementioned schemes.