Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation
作者: Biao Zhang, Fedor Moiseev, Joshua Ainslie, Paul Suganthan, Min Ma, Surya Bhupatiraju, Fede Lebron, Orhan Firat, Armand Joulin, Zhe Dong
分类: cs.CL, cs.LG
发布日期: 2025-04-08
💡 一句话要点
提出Encoder-Decoder Gemma,通过模型适配提升质量-效率权衡。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 编码器-解码器模型 模型适配 大型语言模型 Gemma 推理效率 指令调优 迁移学习
📋 核心要点
- 仅解码器LLM虽然表现出色,但编码器-解码器模型因其推理效率和更丰富的编码器表示,在实际应用中仍被广泛采用。
- 本文提出将预训练的仅解码器LLM适配到编码器-解码器结构,以结合两者的优势,在质量和效率之间取得更好的平衡。
- 实验结果表明,适配后的编码器-解码器LLM在相似推理预算下,微调性能显著优于仅解码器模型,且在SuperGLUE上也表现更佳。
📝 摘要(中文)
本文研究了一个新问题:将预训练的仅解码器大型语言模型(LLM)适配到编码器-解码器结构,旨在利用两种方法的优势,实现更优的质量-效率权衡。我们认为,适配不仅能够继承仅解码器LLM的能力,还能减少从头开始预训练所需的计算量。我们严格探索了不同的预训练目标和参数初始化/优化技术。通过基于Gemma 2(2B和9B)以及一套新预训练的mT5大小模型(高达1.6B)的大量实验,我们证明了适配的有效性和编码器-解码器LLM的优势。在相似的推理预算下,编码器-解码器LLM实现了可比(通常更好)的预训练性能,但比其仅解码器对应模型具有显著更好的微调性能。例如,Gemma 2B-2B在指令调优后优于Gemma 2B约7%。编码器-解码器适配还允许灵活组合不同大小的模型,其中Gemma 9B-2B显著优于Gemma 2B-2B,提升超过3%。适配后的编码器表示在SuperGLUE上也产生了更好的结果。我们将发布我们的检查点,以促进未来的研究。
🔬 方法详解
问题定义:论文旨在解决如何高效地将预训练的仅解码器LLM转化为编码器-解码器模型的问题。现有方法要么从头开始训练编码器-解码器模型,计算成本高昂,要么直接使用仅解码器模型,在某些任务上效率较低。
核心思路:论文的核心思路是通过模型适配,即利用已有的、预训练好的仅解码器LLM的知识,将其迁移到编码器-解码器结构中。这样可以避免从头训练,节省计算资源,同时继承预训练模型的优秀性能。
技术框架:整体框架包括以下步骤:首先,选择一个预训练好的仅解码器LLM作为基础模型。然后,添加一个编码器模块,并设计合适的预训练目标和参数初始化方法,将仅解码器模型适配为编码器-解码器模型。最后,对适配后的模型进行微调,以适应特定的下游任务。
关键创新:最重要的创新点在于提出了一种有效的模型适配方法,能够将预训练的仅解码器LLM转化为高性能的编码器-解码器模型。与从头训练相比,该方法显著降低了计算成本,同时保持了甚至提升了模型性能。
关键设计:论文探索了不同的预训练目标和参数初始化/优化技术。例如,研究了如何初始化编码器模块的参数,以及如何设计损失函数来指导模型的适配过程。此外,还研究了不同大小的模型组合方式,例如使用较大的解码器和较小的编码器,以进一步提升模型性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,适配后的Gemma 2B-2B模型在指令调优后,性能优于原始的Gemma 2B模型约7%。此外,Gemma 9B-2B模型显著优于Gemma 2B-2B模型,提升超过3%。适配后的编码器表示在SuperGLUE基准测试上也取得了更好的结果,证明了该方法的有效性。
🎯 应用场景
该研究成果可广泛应用于各种自然语言处理任务,例如机器翻译、文本摘要、问答系统等。通过将预训练的仅解码器LLM适配为编码器-解码器模型,可以在保证模型性能的同时,显著提高推理效率,降低计算成本,从而推动LLM在实际应用中的普及。
📄 摘要(原文)
While decoder-only large language models (LLMs) have shown impressive results, encoder-decoder models are still widely adopted in real-world applications for their inference efficiency and richer encoder representation. In this paper, we study a novel problem: adapting pretrained decoder-only LLMs to encoder-decoder, with the goal of leveraging the strengths of both approaches to achieve a more favorable quality-efficiency trade-off. We argue that adaptation not only enables inheriting the capability of decoder-only LLMs but also reduces the demand for computation compared to pretraining from scratch. We rigorously explore different pretraining objectives and parameter initialization/optimization techniques. Through extensive experiments based on Gemma 2 (2B and 9B) and a suite of newly pretrained mT5-sized models (up to 1.6B), we demonstrate the effectiveness of adaptation and the advantage of encoder-decoder LLMs. Under similar inference budget, encoder-decoder LLMs achieve comparable (often better) pretraining performance but substantially better finetuning performance than their decoder-only counterpart. For example, Gemma 2B-2B outperforms Gemma 2B by $\sim$7\% after instruction tuning. Encoder-decoder adaptation also allows for flexible combination of different-sized models, where Gemma 9B-2B significantly surpasses Gemma 2B-2B by $>$3\%. The adapted encoder representation also yields better results on SuperGLUE. We will release our checkpoints to facilitate future research.