Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation

作者: Biao Zhang, Fedor Moiseev, Joshua Ainslie, Paul Suganthan, Min Ma, Surya Bhupatiraju, Fede Lebron, Orhan Firat, Armand Joulin, Zhe Dong

分类: cs.CL, cs.LG

发布日期: 2025-04-08

💡 一句话要点

提出Encoder-Decoder Gemma，通过模型适配提升质量-效率权衡。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 编码器-解码器模型 模型适配 大型语言模型 Gemma 推理效率 指令调优 迁移学习

📋 核心要点

仅解码器LLM虽然表现出色，但编码器-解码器模型因其推理效率和更丰富的编码器表示，在实际应用中仍被广泛采用。
本文提出将预训练的仅解码器LLM适配到编码器-解码器结构，以结合两者的优势，在质量和效率之间取得更好的平衡。
实验结果表明，适配后的编码器-解码器LLM在相似推理预算下，微调性能显著优于仅解码器模型，且在SuperGLUE上也表现更佳。

📝 摘要（中文）

本文研究了一个新问题：将预训练的仅解码器大型语言模型（LLM）适配到编码器-解码器结构，旨在利用两种方法的优势，实现更优的质量-效率权衡。我们认为，适配不仅能够继承仅解码器LLM的能力，还能减少从头开始预训练所需的计算量。我们严格探索了不同的预训练目标和参数初始化/优化技术。通过基于Gemma 2（2B和9B）以及一套新预训练的mT5大小模型（高达1.6B）的大量实验，我们证明了适配的有效性和编码器-解码器LLM的优势。在相似的推理预算下，编码器-解码器LLM实现了可比（通常更好）的预训练性能，但比其仅解码器对应模型具有显著更好的微调性能。例如，Gemma 2B-2B在指令调优后优于Gemma 2B约7%。编码器-解码器适配还允许灵活组合不同大小的模型，其中Gemma 9B-2B显著优于Gemma 2B-2B，提升超过3%。适配后的编码器表示在SuperGLUE上也产生了更好的结果。我们将发布我们的检查点，以促进未来的研究。

🔬 方法详解

问题定义：论文旨在解决如何高效地将预训练的仅解码器LLM转化为编码器-解码器模型的问题。现有方法要么从头开始训练编码器-解码器模型，计算成本高昂，要么直接使用仅解码器模型，在某些任务上效率较低。

核心思路：论文的核心思路是通过模型适配，即利用已有的、预训练好的仅解码器LLM的知识，将其迁移到编码器-解码器结构中。这样可以避免从头训练，节省计算资源，同时继承预训练模型的优秀性能。

技术框架：整体框架包括以下步骤：首先，选择一个预训练好的仅解码器LLM作为基础模型。然后，添加一个编码器模块，并设计合适的预训练目标和参数初始化方法，将仅解码器模型适配为编码器-解码器模型。最后，对适配后的模型进行微调，以适应特定的下游任务。

关键创新：最重要的创新点在于提出了一种有效的模型适配方法，能够将预训练的仅解码器LLM转化为高性能的编码器-解码器模型。与从头训练相比，该方法显著降低了计算成本，同时保持了甚至提升了模型性能。

关键设计：论文探索了不同的预训练目标和参数初始化/优化技术。例如，研究了如何初始化编码器模块的参数，以及如何设计损失函数来指导模型的适配过程。此外，还研究了不同大小的模型组合方式，例如使用较大的解码器和较小的编码器，以进一步提升模型性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，适配后的Gemma 2B-2B模型在指令调优后，性能优于原始的Gemma 2B模型约7%。此外，Gemma 9B-2B模型显著优于Gemma 2B-2B模型，提升超过3%。适配后的编码器表示在SuperGLUE基准测试上也取得了更好的结果，证明了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于各种自然语言处理任务，例如机器翻译、文本摘要、问答系统等。通过将预训练的仅解码器LLM适配为编码器-解码器模型，可以在保证模型性能的同时，显著提高推理效率，降低计算成本，从而推动LLM在实际应用中的普及。

📄 摘要（原文）

While decoder-only large language models (LLMs) have shown impressive results, encoder-decoder models are still widely adopted in real-world applications for their inference efficiency and richer encoder representation. In this paper, we study a novel problem: adapting pretrained decoder-only LLMs to encoder-decoder, with the goal of leveraging the strengths of both approaches to achieve a more favorable quality-efficiency trade-off. We argue that adaptation not only enables inheriting the capability of decoder-only LLMs but also reduces the demand for computation compared to pretraining from scratch. We rigorously explore different pretraining objectives and parameter initialization/optimization techniques. Through extensive experiments based on Gemma 2 (2B and 9B) and a suite of newly pretrained mT5-sized models (up to 1.6B), we demonstrate the effectiveness of adaptation and the advantage of encoder-decoder LLMs. Under similar inference budget, encoder-decoder LLMs achieve comparable (often better) pretraining performance but substantially better finetuning performance than their decoder-only counterpart. For example, Gemma 2B-2B outperforms Gemma 2B by $\sim$7\% after instruction tuning. Encoder-decoder adaptation also allows for flexible combination of different-sized models, where Gemma 9B-2B significantly surpasses Gemma 2B-2B by $>$3\%. The adapted encoder representation also yields better results on SuperGLUE. We will release our checkpoints to facilitate future research.

Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理