Can Models Learn Skill Composition from Examples?

📄 arXiv: 2409.19808v2 📥 PDF

作者: Haoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-09-29 (更新: 2025-01-19)

备注: Accepted to NeurIPS 2024


💡 一句话要点

通过示例学习技能组合:小模型也能涌现组合泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合泛化 语言模型 技能学习 合成数据 微调 数据增强 GPT-4 SKILL-MIX

📋 核心要点

  1. 大型语言模型在组合泛化方面面临挑战,尤其是在训练数据之外的新技能组合上。
  2. 利用GPT-4生成包含多种技能组合的合成数据,并微调较小的模型,以提升其组合泛化能力。
  3. 实验表明,即使模型未见过的技能组合,通过训练也能有效提升其组合能力,验证了方法的有效性。

📝 摘要(中文)

随着大型语言模型(LLMs)日益先进,它们在组合泛化方面的能力——即以训练期间未遇到的新方式组合已学习技能的能力——受到了广泛关注。这种泛化类型,尤其是在超出训练数据的场景中,在AI安全和对齐的研究中也具有重要意义。最近的一项研究引入了SKILL-MIX评估,该评估要求模型组合一个简短的段落,展示指定$k$元组的语言技能的使用。虽然小型模型在组合甚至$k=3$时都表现不佳,但像GPT-4这样的大型模型在$k=5$和$6$时表现相当不错。本文采用类似于SKILL-MIX的设置来评估较小模型从示例中学习组合泛化的能力。利用各种语言技能——包括修辞、文学、推理、心智理论和常识——GPT-4被用来生成展示$k$个技能的随机子集的文本样本。随后,在这些组合技能文本上对7B和13B参数模型进行微调,对于递增的$k$值,揭示了以下发现:(1)训练$k=2$和$3$技能的组合可以显著提高组合$k=4$和$5$技能文本的能力,尽管模型在训练期间从未见过这样的例子。(2)当技能类别被分成训练组和保留组时,模型在测试期间显著提高了组合保留技能文本的能力,尽管在微调期间只看到了训练技能,这说明了即使是以前未见过的技能,该训练方法的有效性。这项研究还表明,将富含技能的(可能是合成的)文本纳入训练可以大大提高模型的组合能力。

🔬 方法详解

问题定义:论文旨在解决小型语言模型在技能组合泛化能力上的不足。现有方法难以让模型在未见过的技能组合上表现良好,限制了模型在复杂任务中的应用。

核心思路:论文的核心思路是利用大型语言模型(GPT-4)生成包含多种技能组合的合成训练数据,并通过微调较小的模型,使其能够学习到技能之间的组合规律,从而提升其在未见过的技能组合上的泛化能力。这种方法的核心在于通过数据增强来弥补小型模型在知识和推理能力上的不足。

技术框架:整体框架包含以下几个主要步骤: 1. 技能定义:定义一系列语言技能,例如修辞、文学、推理等。 2. 数据生成:使用GPT-4生成包含随机技能组合的文本样本。 3. 模型微调:使用生成的合成数据对小型语言模型(7B和13B参数)进行微调。 4. 评估:使用SKILL-MIX评估方法评估模型在未见过的技能组合上的表现。

关键创新:最重要的技术创新点在于利用大型语言模型生成合成数据来增强小型模型的组合泛化能力。与传统的训练方法相比,该方法能够有效地扩展训练数据的覆盖范围,使模型能够学习到更多技能之间的组合模式。

关键设计: * 技能选择:选择多样化的语言技能,以覆盖不同的语言能力。 * 数据生成策略:使用GPT-4生成包含随机技能组合的文本样本,并控制技能组合的数量(k值)。 * 微调策略:使用标准的微调方法,并调整学习率等超参数以获得最佳性能。 * 评估指标:使用SKILL-MIX评估方法,评估模型在未见过的技能组合上的表现。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,通过在包含k=2和k=3技能组合的数据上进行训练,模型在组合k=4和k=5技能时表现出显著的改进,即使模型在训练期间从未见过这些组合。此外,当技能类别被分为训练组和保留组时,模型在组合保留技能的文本方面也取得了显著的进步,证明了该方法在处理未见过的技能方面的有效性。

🎯 应用场景

该研究成果可应用于提升语言模型在各种复杂任务中的表现,例如自动写作、对话生成和内容创作。通过学习技能组合,模型可以生成更具创造性和多样性的文本,从而提高用户体验和应用价值。此外,该方法还可以用于AI安全和对齐研究,帮助模型更好地理解和遵循人类指令。

📄 摘要(原文)

As large language models (LLMs) become increasingly advanced, their ability to exhibit compositional generalization -- the capacity to combine learned skills in novel ways not encountered during training -- has garnered significant attention. This type of generalization, particularly in scenarios beyond training data, is also of great interest in the study of AI safety and alignment. A recent study introduced the SKILL-MIX evaluation, where models are tasked with composing a short paragraph demonstrating the use of a specified $k$-tuple of language skills. While small models struggled with composing even with $k=3$, larger models like GPT-4 performed reasonably well with $k=5$ and $6$. In this paper, we employ a setup akin to SKILL-MIX to evaluate the capacity of smaller models to learn compositional generalization from examples. Utilizing a diverse set of language skills -- including rhetorical, literary, reasoning, theory of mind, and common sense -- GPT-4 was used to generate text samples that exhibit random subsets of $k$ skills. Subsequent fine-tuning of 7B and 13B parameter models on these combined skill texts, for increasing values of $k$, revealed the following findings: (1) Training on combinations of $k=2$ and $3$ skills results in noticeable improvements in the ability to compose texts with $k=4$ and $5$ skills, despite models never having seen such examples during training. (2) When skill categories are split into training and held-out groups, models significantly improve at composing texts with held-out skills during testing despite having only seen training skills during fine-tuning, illustrating the efficacy of the training approach even with previously unseen skills. This study also suggests that incorporating skill-rich (potentially synthetic) text into training can substantially enhance the compositional capabilities of models.