SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots

作者: Weixing Wang, Haojin Yang, Christoph Meinel

分类: cs.AI

发布日期: 2024-06-20 (更新: 2024-09-26)

备注: preprint

💡 一句话要点

提出SeCoKD框架，通过自知识蒸馏提升大语言模型少样本上下文学习能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 上下文学习 知识蒸馏 少样本学习 自监督学习

📋 核心要点

大语言模型的上下文学习能力对演示示例非常敏感，通常需要大量示例。
SeCoKD通过自知识蒸馏，利用大量提示变体对齐模型，提升单一样例利用率。
实验表明，SeCoKD在少样本学习中显著优于基线模型和监督微调，且泛化性更强。

📝 摘要（中文）

本文研究如何减少大语言模型(LLMs)上下文学习(ICL)所需的演示数量，同时保持竞争力的性能。为此，我们提出了SeCoKD，一个自知识蒸馏(KD)训练框架，它通过大量提示的变体来对齐学生模型，从而提高单个演示的利用率。我们在三个LLM和六个基准测试上对SeCoKD进行了实验，主要关注推理任务。结果表明，我们的方法优于基础模型和监督微调(SFT)，尤其是在零样本和单样本设置中，分别提高了30%和10%。此外，SeCoKD在新任务上评估时几乎没有带来负面影响，比监督微调更稳健。

🔬 方法详解

问题定义：现有大语言模型的上下文学习能力依赖于大量的演示示例，这在实际应用中成本较高。如何减少所需的演示数量，同时保持甚至提升模型性能，是一个重要的研究问题。监督微调虽然可以提升性能，但容易过拟合到特定任务，泛化能力较差。

核心思路：SeCoKD的核心思路是利用知识蒸馏，将一个经过大量提示的“教师”模型的知识迁移到“学生”模型。通过这种方式，学生模型可以学习到更鲁棒的上下文学习能力，从而在少量演示示例下也能取得良好的性能。

技术框架：SeCoKD框架包含两个主要部分：教师模型和学生模型。教师模型是一个经过大量提示的预训练大语言模型，用于生成“软标签”。学生模型是需要训练的模型，通过最小化与教师模型输出的差异来学习知识。训练过程采用自知识蒸馏的方式，即学生模型同时作为教师模型的一部分，从而实现知识的循环利用。

关键创新：SeCoKD的关键创新在于利用自知识蒸馏来提升少样本上下文学习能力。与传统的监督微调相比，SeCoKD通过知识蒸馏的方式，避免了对特定任务的过拟合，从而提高了模型的泛化能力。此外，通过大量提示的教师模型，SeCoKD可以学习到更鲁棒的上下文学习模式。

关键设计：SeCoKD的关键设计包括：1) 使用多种提示策略生成教师模型的输出，以增加数据的多样性；2) 使用KL散度作为损失函数，衡量学生模型和教师模型输出之间的差异；3) 采用自知识蒸馏的方式，使得学生模型可以从自身的预测中学习，从而提高模型的稳定性和性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SeCoKD在零样本和单样本设置下，分别比基线模型和监督微调提升了30%和10%。此外，SeCoKD在新任务上的泛化能力更强，几乎没有带来负面影响，表明其具有更好的鲁棒性。这些结果验证了SeCoKD在提升少样本上下文学习能力方面的有效性。

🎯 应用场景

SeCoKD框架可应用于各种需要利用大语言模型进行推理和决策的场景，尤其是在数据稀缺或标注成本高的领域。例如，在医疗诊断、金融风控等领域，可以利用少量专家知识构建演示示例，然后通过SeCoKD训练模型，实现高效的知识迁移和推理。

📄 摘要（原文）

Previous studies have shown that demonstrations can significantly help Large Language Models (LLMs ) perform better on the given tasks. However, this so-called In-Context Learning ( ICL ) ability is very sensitive to the presenting context, and often dozens of demonstrations are needed. In this work, we investigate if we can reduce the shot number while still maintaining a competitive performance. We present SeCoKD, a self-Knowledge Distillation ( KD ) training framework that aligns the student model with a heavily prompted variation, thereby increasing the utilization of a single demonstration. We experiment with the SeCoKD across three LLMs and six benchmarks focusing mainly on reasoning tasks. Results show that our method outperforms the base model and Supervised Fine-tuning ( SFT ), especially in zero-shot and one-shot settings by 30% and 10%, respectively. Moreover, SeCoKD brings little negative artifacts when evaluated on new tasks, which is more robust than Supervised Fine-tuning.

SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理