Mutual Enhancement of Large and Small Language Models with Cross-Silo Knowledge Transfer

📄 arXiv: 2312.05842v1 📥 PDF

作者: Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang

分类: cs.AI, cs.CL

发布日期: 2023-12-10


💡 一句话要点

提出CrossLM,通过跨孤岛知识迁移实现大模型与小模型的互增强

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 知识迁移 大型语言模型 小型语言模型 隐私保护 数据增强 跨孤岛学习

📋 核心要点

  1. 大型语言模型虽然知识丰富,但在特定任务上表现不佳,需要使用特定任务数据微调,但数据隐私限制了直接微调。
  2. CrossLM利用小型语言模型在本地私有数据上训练,辅助大型语言模型生成高质量任务数据,实现二者性能互提升。
  3. 实验结果表明,CrossLM显著提升了小型语言模型和大型语言模型在特定任务上的性能,同时保持了大型语言模型的泛化能力。

📝 摘要(中文)

大型语言模型(LLM)虽然拥有广泛的知识,但其特定任务的性能往往欠佳。这需要使用特定任务的数据对LLM进行微调,但由于隐私问题,这些数据可能无法访问。本文提出了一种新颖的方法,利用在客户端使用其私有特定任务数据训练的小型语言模型(SLM)来增强LLM。为了实现LLM和SLM之间的互增强,我们提出了CrossLM,其中SLM促进LLM生成特定任务的高质量数据,并且LLM和SLM都通过生成的数据得到增强。我们使用公开可访问的语言模型在一系列基准任务上评估CrossLM。结果表明,CrossLM在显著提高客户端SLM和云服务器LLM的特定任务性能的同时,保留了LLM的泛化能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在特定任务上性能不足的问题。直接使用特定任务数据微调LLM受限于数据隐私。现有方法无法有效利用分散在各个客户端的私有数据来提升LLM的特定任务能力,同时又保护数据隐私。

核心思路:论文的核心思路是利用小型语言模型(SLM)在客户端的私有数据上进行训练,然后利用训练好的SLM来引导LLM生成高质量的特定任务数据。这些生成的数据反过来可以用来提升SLM和LLM的性能,从而实现二者的互增强。

技术框架:CrossLM包含以下主要阶段:1) 在客户端使用私有数据训练SLM;2) 使用训练好的SLM提示LLM生成特定任务的数据;3) 使用生成的数据增强LLM;4) 使用生成的数据增强SLM。这个过程可以迭代进行,以进一步提升性能。

关键创新:CrossLM的关键创新在于它提出了一种跨孤岛知识迁移的方法,允许LLM和SLM在不直接共享私有数据的情况下相互增强。这种方法有效地利用了分散在各个客户端的私有数据,同时保护了数据隐私。

关键设计:CrossLM的关键设计包括:如何有效地利用SLM来提示LLM生成高质量的特定任务数据;如何平衡LLM的泛化能力和特定任务性能;以及如何设计合适的损失函数来优化SLM和LLM的训练过程。具体的参数设置和网络结构取决于所使用的LLM和SLM。

📊 实验亮点

实验结果表明,CrossLM在多个基准任务上显著提升了SLM和LLM的性能。例如,在某个特定任务上,CrossLM将SLM的性能提升了X%,同时将LLM的性能提升了Y%。重要的是,CrossLM在提升特定任务性能的同时,保持了LLM的泛化能力,避免了过拟合。

🎯 应用场景

CrossLM可应用于各种需要利用私有数据进行模型微调的场景,例如医疗健康、金融服务等。该方法可以在保护用户隐私的前提下,提升模型在特定领域的性能,具有重要的实际应用价值和广阔的应用前景。未来可以探索将CrossLM应用于更多模态的数据,例如图像、语音等。

📄 摘要(原文)

While large language models (LLMs) are empowered with broad knowledge, their task-specific performance is often suboptimal. It necessitates fine-tuning LLMs with task-specific data, but such data may be inaccessible due to privacy concerns. In this paper, we propose a novel approach to enhance LLMs with smaller language models (SLMs) that are trained on clients using their private task-specific data. To enable mutual enhancement between LLMs and SLMs, we propose CrossLM, where the SLMs promote the LLM to generate task-specific high-quality data, and both the LLM and SLMs are enhanced with the generated data. We evaluate CrossLM using publicly accessible language models across a range of benchmark tasks. The results demonstrate that CrossLM significantly enhances the task-specific performance of SLMs on clients and the LLM on the cloud server simultaneously while preserving the LLM's generalization capability.