MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning
作者: Sanchit Sinha, Yuguang Yue, Victor Soto, Mayank Kulkarni, Jianhua Lu, Aidong Zhang
分类: cs.CL, cs.LG
发布日期: 2024-05-19
备注: KDD 2024, 11 pages(9 main, 2 ref, 1 App) Openreview https://openreview.net/forum?id=JwecLNhWDy&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DKDD.org%2F2024%2FResearch_Track%2FAuthors%23your-submissions)
💡 一句话要点
提出MAML-en-LLM,通过模型无关的元学习提升LLM的上下文学习能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 元学习 上下文学习 模型无关元学习 泛化能力
📋 核心要点
- 现有元学习方法如MetaICL和MetaICT,虽然在特定任务上表现出色,但未能学习到真正通用的参数。
- MAML-en-LLM旨在学习可泛化的参数,使LLM不仅在已知任务上表现良好,还能适应未见过的任务。
- 实验结果表明,MAML-en-LLM在未见领域性能平均提升2%,适应性能提升4%,且在数据有限情况下优于基线。
📝 摘要(中文)
本文研究了如何通过上下文训练样本使大型语言模型(LLM)适应未见过的任务,而无需进行微调。为了学习能够很好地适应未见任务的鲁棒LLM,提出了多种元学习方法,如MetaICL和MetaICT,它们涉及在各种不同的任务上对预训练的LLM进行元训练。这些元训练方法本质上执行上下文多任务微调,并在不相交的任务测试集上进行评估。尽管它们取得了令人印象深刻的性能,但它们的目标从来不是计算真正通用的参数集。在本文中,我们提出了一种新的LLM元训练方法MAML-en-LLM,它可以学习真正可泛化的参数,这些参数不仅在不相交的任务上表现良好,而且可以适应未见过的任务。我们发现,在未见过的领域中,性能平均提高了2%,而在适应性能方面,则大幅提高了4%。此外,我们证明了MAML-en-LLM在训练数据量有限的情况下,在已见和未见领域都优于基线方法,平均提高了2%。最后,我们讨论了任务类型、优化器和任务复杂性的影响,这是元训练文献中很少探讨的一个方面。在7个任务设置和两种数据设置下进行的详尽实验表明,使用MAML-en-LLM训练的模型优于SOTA元训练方法。
🔬 方法详解
问题定义:现有基于上下文学习的LLM元学习方法,例如MetaICL和MetaICT,虽然通过在大量任务上进行训练提高了模型性能,但其目标是针对特定任务集合进行优化,缺乏真正的泛化能力,无法很好地适应全新的、未见过的任务。这些方法本质上是在执行上下文多任务微调,而非学习通用的模型参数。
核心思路:MAML-en-LLM的核心思路是借鉴Model-Agnostic Meta-Learning (MAML) 的思想,通过优化模型的初始化参数,使其能够仅用少量梯度更新就能快速适应新的任务。这意味着模型学习的是一种对任务变化不敏感的通用表示,从而提高其泛化能力。
技术框架:MAML-en-LLM的整体框架遵循MAML的经典流程,包括以下几个主要阶段: 1. 任务采样:从任务分布中随机采样一批任务。 2. 内循环优化:对于每个任务,使用少量数据(支持集)对模型参数进行一次或多次梯度更新,得到适应于该任务的特定参数。 3. 外循环优化:使用另一部分数据(查询集)计算在内循环更新后的模型参数上的损失,并利用该损失更新模型的初始参数。目标是找到一组初始参数,使得模型在经过少量梯度更新后,能够在多个任务上都表现良好。
关键创新:MAML-en-LLM的关键创新在于将MAML的思想成功应用于大型语言模型的元学习。与传统的元学习方法不同,MAML-en-LLM旨在学习一组通用的模型参数,而不是针对特定任务集合进行微调。这使得模型能够更好地适应未见过的任务,并提高其泛化能力。
关键设计:MAML-en-LLM的关键设计包括: 1. 任务定义:需要精心设计任务分布,使其能够覆盖尽可能多的领域和任务类型,以提高模型的泛化能力。 2. 优化器选择:选择合适的优化器对于MAML的训练至关重要。论文中可能探讨了不同优化器对模型性能的影响。 3. 损失函数设计:损失函数的设计需要能够反映模型在多个任务上的表现,并引导模型学习到通用的表示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MAML-en-LLM在未见过的领域中性能平均提高了2%,在适应性能方面大幅提高了4%。此外,在训练数据量有限的情况下,MAML-en-LLM在已见和未见领域都优于基线方法,平均提高了2%。这些结果表明,MAML-en-LLM能够有效地学习到通用的模型参数,并提高LLM的泛化能力。
🎯 应用场景
MAML-en-LLM具有广泛的应用前景,例如在低资源场景下快速定制LLM,提升LLM在特定领域的专业能力,以及构建能够处理各种复杂任务的通用智能体。该方法可以应用于自然语言处理的各个领域,如文本生成、机器翻译、问答系统等,并有望推动LLM在实际应用中的普及。
📄 摘要(原文)
Adapting large language models (LLMs) to unseen tasks with in-context training samples without fine-tuning remains an important research problem. To learn a robust LLM that adapts well to unseen tasks, multiple meta-training approaches have been proposed such as MetaICL and MetaICT, which involve meta-training pre-trained LLMs on a wide variety of diverse tasks. These meta-training approaches essentially perform in-context multi-task fine-tuning and evaluate on a disjointed test set of tasks. Even though they achieve impressive performance, their goal is never to compute a truly general set of parameters. In this paper, we propose MAML-en-LLM, a novel method for meta-training LLMs, which can learn truly generalizable parameters that not only perform well on disjointed tasks but also adapts to unseen tasks. We see an average increase of 2% on unseen domains in the performance while a massive 4% improvement on adaptation performance. Furthermore, we demonstrate that MAML-en-LLM outperforms baselines in settings with limited amount of training data on both seen and unseen domains by an average of 2%. Finally, we discuss the effects of type of tasks, optimizers and task complexity, an avenue barely explored in meta-training literature. Exhaustive experiments across 7 task settings along with two data settings demonstrate that models trained with MAML-en-LLM outperform SOTA meta-training approaches.