MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following

作者: Renze Lou, Kai Zhang, Jian Xie, Yuxuan Sun, Janice Ahn, Hanzi Xu, Yu Su, Wenpeng Yin

分类: cs.CL, cs.AI

发布日期: 2023-12-05 (更新: 2024-03-15)

备注: ICLR 2024. Data, model, and code are available at: https://renzelou.github.io/Muffin/

💡 一句话要点

MUFFIN：通过多方面指令生成，提升大语言模型的指令遵循能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 大语言模型 数据增强 多方面指令 零样本学习

📋 核心要点

现有方法在提升LLM指令遵循能力时，扩展输入易导致模型对输入过敏感，扩展无输入任务则在处理特定输入时效果不佳。
MUFFIN的核心思想是通过多样化输入的不同方面，自动地为每个输入扩展任务，从而提升模型的泛化能力。
实验结果表明，在多个零样本基准测试中，使用MUFFIN训练的LLM在指令遵循方面优于现有方法。

📝 摘要（中文）

为了提升大语言模型（LLMs）的指令遵循能力，通常需要构建大规模的训练数据集。目前主要有两种方案：i) 扩展输入（Scaling-Inputs）：增加每个任务指令对应的(输入, 输出)对，以期更好地遵循指令。ii) 扩展无输入任务（Scaling Input-Free Tasks）：增加任务数量，每个任务由一个(指令, 输出)对组成（不再需要单独的输入）。然而，采用扩展输入方案训练的LLMs往往对输入过于敏感，导致对指令的误解或不遵守。相反，扩展无输入任务方案需要大量的任务，但在处理扩展输入方案中的实例时，指令遵循效果较差。本文提出了MUFFIN，一种新的指令遵循数据集构建方案。具体而言，我们通过多样化输入的不同方面，自动地按输入扩展任务。在四个零样本基准测试上的实验结果表明，在不同规模下，使用MUFFIN训练的LLMs通常比使用上述两种方案训练的LLMs表现出更优越的指令遵循能力。

🔬 方法详解

问题定义：现有的大语言模型在指令遵循能力上存在不足。具体来说，通过增加每个任务的输入-输出对（Scaling-Inputs）来训练模型，容易导致模型对输入过于敏感，从而无法正确理解和执行指令。而另一种方法，即增加无输入的任务数量（Scaling Input-Free Tasks），虽然可以提高模型的泛化能力，但在处理需要特定输入的任务时，效果并不理想。因此，如何有效地构建训练数据集，提升大语言模型在各种场景下的指令遵循能力是一个关键问题。

核心思路：MUFFIN的核心思路是“按输入扩展任务”，即针对每个输入，通过多样化输入的不同方面来生成多个相关的任务。这种方法旨在解决Scaling-Inputs和Scaling Input-Free Tasks两种方法的局限性。通过关注输入的不同侧面，模型可以学习到更鲁棒的指令理解能力，从而更好地适应各种输入场景。

技术框架：MUFFIN的技术框架主要包括以下几个步骤：1) 收集原始的指令和输入数据。2) 分析输入数据的不同方面（facets），例如，对于图像数据，可以考虑颜色、形状、纹理等不同的方面。3) 基于这些不同的方面，生成多个新的指令和输入对，从而扩展原始的任务。4) 使用扩展后的数据集训练大语言模型。整体流程的关键在于如何有效地识别和利用输入数据的不同方面，以生成高质量的训练数据。

关键创新：MUFFIN最重要的技术创新点在于其“按输入扩展任务”的策略。与传统的Scaling-Inputs和Scaling Input-Free Tasks方法不同，MUFFIN不是简单地增加输入-输出对的数量，而是通过深入分析输入数据的不同方面，生成多个具有不同侧重点的任务。这种方法可以有效地提高模型的泛化能力和指令遵循能力。

关键设计：MUFFIN的关键设计在于如何自动地识别和利用输入数据的不同方面。具体来说，可以使用一些预定义的规则或模板来生成新的指令和输入对。例如，对于文本数据，可以使用同义词替换、句子重组等方法来生成不同的表达方式。对于图像数据，可以使用图像增强技术，如旋转、缩放、裁剪等，来生成不同的视角。此外，还可以使用一些自动化的方法，如生成对抗网络（GANs），来生成更加多样化的输入数据。

📊 实验亮点

实验结果表明，在四个零样本基准测试中，使用MUFFIN训练的LLMs在指令遵循能力方面显著优于使用Scaling-Inputs和Scaling Input-Free Tasks方法训练的LLMs。具体的性能提升幅度取决于具体的任务和模型规模，但总体趋势是MUFFIN能够有效地提高模型的泛化能力和指令遵循能力。

🎯 应用场景

MUFFIN方法可以广泛应用于各种需要指令遵循的大语言模型应用场景，例如智能助手、聊天机器人、代码生成、文本摘要等。通过提升模型的指令遵循能力，可以提高用户体验，减少错误，并拓展大语言模型的应用范围。未来，MUFFIN可以与其他数据增强技术相结合，进一步提升模型的性能。

📄 摘要（原文）

In the realm of large language models (LLMs), enhancing instruction-following capability often involves curating expansive training data. This is achieved through two primary schemes: i) Scaling-Inputs: Amplifying (input, output) pairs per task instruction, aiming for better instruction adherence. ii) Scaling Input-Free Tasks: Enlarging tasks, each composed of an (instruction, output) pair (without requiring a separate input anymore). However, LLMs under Scaling-Inputs tend to be overly sensitive to inputs, leading to misinterpretation or non-compliance with instructions. Conversely, Scaling Input-Free Tasks demands a substantial number of tasks but is less effective in instruction following when dealing with instances in Scaling-Inputs. This work introduces MUFFIN, a new scheme of instruction-following dataset curation. Specifically, we automatically Scale Tasks per Input by diversifying these tasks with various input facets. Experimental results across four zero-shot benchmarks, spanning both Scaling-Inputs and Scaling Input-Free Tasks schemes, reveal that LLMs, at various scales, trained on MUFFIN generally demonstrate superior instruction-following capabilities compared to those trained on the two aforementioned schemes.

MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册