MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning

作者: Sanchit Sinha, Yuguang Yue, Victor Soto, Mayank Kulkarni, Jianhua Lu, Aidong Zhang

分类: cs.CL, cs.LG

发布日期: 2024-05-19

备注: KDD 2024, 11 pages(9 main, 2 ref, 1 App) Openreview https://openreview.net/forum?id=JwecLNhWDy&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DKDD.org%2F2024%2FResearch_Track%2FAuthors%23your-submissions)

💡 一句话要点

提出MAML-en-LLM，通过模型无关的元学习提升LLM的上下文学习能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 元学习 上下文学习 模型无关元学习 泛化能力

📋 核心要点

现有元学习方法如MetaICL和MetaICT，虽然在特定任务上表现出色，但未能学习到真正通用的参数。
MAML-en-LLM旨在学习可泛化的参数，使LLM不仅在已知任务上表现良好，还能适应未见过的任务。
实验结果表明，MAML-en-LLM在未见领域性能平均提升2%，适应性能提升4%，且在数据有限情况下优于基线。

📝 摘要（中文）

本文研究了如何通过上下文训练样本使大型语言模型(LLM)适应未见过的任务，而无需进行微调。为了学习能够很好地适应未见任务的鲁棒LLM，提出了多种元学习方法，如MetaICL和MetaICT，它们涉及在各种不同的任务上对预训练的LLM进行元训练。这些元训练方法本质上执行上下文多任务微调，并在不相交的任务测试集上进行评估。尽管它们取得了令人印象深刻的性能，但它们的目标从来不是计算真正通用的参数集。在本文中，我们提出了一种新的LLM元训练方法MAML-en-LLM，它可以学习真正可泛化的参数，这些参数不仅在不相交的任务上表现良好，而且可以适应未见过的任务。我们发现，在未见过的领域中，性能平均提高了2%，而在适应性能方面，则大幅提高了4%。此外，我们证明了MAML-en-LLM在训练数据量有限的情况下，在已见和未见领域都优于基线方法，平均提高了2%。最后，我们讨论了任务类型、优化器和任务复杂性的影响，这是元训练文献中很少探讨的一个方面。在7个任务设置和两种数据设置下进行的详尽实验表明，使用MAML-en-LLM训练的模型优于SOTA元训练方法。

🔬 方法详解

问题定义：现有基于上下文学习的LLM元学习方法，例如MetaICL和MetaICT，虽然通过在大量任务上进行训练提高了模型性能，但其目标是针对特定任务集合进行优化，缺乏真正的泛化能力，无法很好地适应全新的、未见过的任务。这些方法本质上是在执行上下文多任务微调，而非学习通用的模型参数。

核心思路：MAML-en-LLM的核心思路是借鉴Model-Agnostic Meta-Learning (MAML) 的思想，通过优化模型的初始化参数，使其能够仅用少量梯度更新就能快速适应新的任务。这意味着模型学习的是一种对任务变化不敏感的通用表示，从而提高其泛化能力。

技术框架：MAML-en-LLM的整体框架遵循MAML的经典流程，包括以下几个主要阶段： 1. 任务采样：从任务分布中随机采样一批任务。 2. 内循环优化：对于每个任务，使用少量数据（支持集）对模型参数进行一次或多次梯度更新，得到适应于该任务的特定参数。 3. 外循环优化：使用另一部分数据（查询集）计算在内循环更新后的模型参数上的损失，并利用该损失更新模型的初始参数。目标是找到一组初始参数，使得模型在经过少量梯度更新后，能够在多个任务上都表现良好。

关键创新：MAML-en-LLM的关键创新在于将MAML的思想成功应用于大型语言模型的元学习。与传统的元学习方法不同，MAML-en-LLM旨在学习一组通用的模型参数，而不是针对特定任务集合进行微调。这使得模型能够更好地适应未见过的任务，并提高其泛化能力。

关键设计：MAML-en-LLM的关键设计包括： 1. 任务定义：需要精心设计任务分布，使其能够覆盖尽可能多的领域和任务类型，以提高模型的泛化能力。 2. 优化器选择：选择合适的优化器对于MAML的训练至关重要。论文中可能探讨了不同优化器对模型性能的影响。 3. 损失函数设计：损失函数的设计需要能够反映模型在多个任务上的表现，并引导模型学习到通用的表示。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MAML-en-LLM在未见过的领域中性能平均提高了2%，在适应性能方面大幅提高了4%。此外，在训练数据量有限的情况下，MAML-en-LLM在已见和未见领域都优于基线方法，平均提高了2%。这些结果表明，MAML-en-LLM能够有效地学习到通用的模型参数，并提高LLM的泛化能力。

🎯 应用场景

MAML-en-LLM具有广泛的应用前景，例如在低资源场景下快速定制LLM，提升LLM在特定领域的专业能力，以及构建能够处理各种复杂任务的通用智能体。该方法可以应用于自然语言处理的各个领域，如文本生成、机器翻译、问答系统等，并有望推动LLM在实际应用中的普及。

📄 摘要（原文）

Adapting large language models (LLMs) to unseen tasks with in-context training samples without fine-tuning remains an important research problem. To learn a robust LLM that adapts well to unseen tasks, multiple meta-training approaches have been proposed such as MetaICL and MetaICT, which involve meta-training pre-trained LLMs on a wide variety of diverse tasks. These meta-training approaches essentially perform in-context multi-task fine-tuning and evaluate on a disjointed test set of tasks. Even though they achieve impressive performance, their goal is never to compute a truly general set of parameters. In this paper, we propose MAML-en-LLM, a novel method for meta-training LLMs, which can learn truly generalizable parameters that not only perform well on disjointed tasks but also adapts to unseen tasks. We see an average increase of 2% on unseen domains in the performance while a massive 4% improvement on adaptation performance. Furthermore, we demonstrate that MAML-en-LLM outperforms baselines in settings with limited amount of training data on both seen and unseen domains by an average of 2%. Finally, we discuss the effects of type of tasks, optimizers and task complexity, an avenue barely explored in meta-training literature. Exhaustive experiments across 7 task settings along with two data settings demonstrate that models trained with MAML-en-LLM outperform SOTA meta-training approaches.

MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理