Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation
作者: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
分类: cs.CL
发布日期: 2025-03-09 (更新: 2025-06-01)
备注: Accepted to ACL Findings 2025. Please cite the ACL version. Code and data are available at: https://github.com/NiuTrans/LaMaTE
💡 一句话要点
利用大型语言模型作为编码器,提升神经机器翻译的效率与泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经机器翻译 大型语言模型 编码器-解码器 模型优化 推理加速 泛化能力 多任务学习
📋 核心要点
- 传统NMT的编码器-解码器结构受LLM发展影响关注度降低,面临效率和泛化性挑战。
- 利用LLM作为NMT编码器,结合NMT解码器,旨在构建通用、高效且易于优化的翻译模型。
- 实验表明,该方法在翻译质量上可媲美甚至超越现有方法,并显著提升推理速度和降低内存占用。
📝 摘要(中文)
本文探索了一种将大型语言模型(LLM)与神经机器翻译(NMT)相结合的通用、高效且易于优化的翻译模型。该方法将LLM应用于NMT的编码器部分,并保持NMT解码器不变。同时,开发了使LLM更好地与NMT解码器协同工作的方法。此外,构建了一个包含多任务的新数据集,用于评估机器翻译系统在各种任务中的泛化能力。在WMT数据集和自建数据集上的评估结果表明,该方法在翻译质量上与一系列基线方法相匹配或超过,同时实现了2.4到6.5倍的推理速度提升,以及KV缓存75%的内存占用减少。该方法还展示了在各种翻译相关任务中的强大泛化能力。
🔬 方法详解
问题定义:神经机器翻译领域,传统的encoder-decoder架构虽然是早期NMT模型的标准,但随着大型语言模型(LLM)的兴起,研究重心更多地转向了仅使用decoder的架构。现有的encoder-decoder模型在利用LLM的能力方面存在不足,尤其是在效率和泛化能力上存在瓶颈。
核心思路:本文的核心思路是将预训练的LLM作为NMT模型的encoder,充分利用LLM强大的语言理解能力,同时保留NMT decoder,以实现高效且高质量的翻译。通过这种方式,可以结合LLM和NMT各自的优势,克服传统encoder-decoder架构的局限性。
技术框架:整体框架包括两个主要部分:LLM encoder和NMT decoder。首先,源语言输入通过LLM encoder进行编码,生成上下文表示。然后,这些表示被传递到NMT decoder,decoder负责生成目标语言的翻译结果。为了使LLM encoder更好地与NMT decoder协同工作,论文还提出了一些适配方法。
关键创新:最重要的创新点在于将LLM引入到NMT的encoder端,这与当前主流的仅使用decoder的翻译模型形成对比。这种方法能够有效利用LLM强大的语言理解能力,同时避免了从头训练大型翻译模型的巨大开销。此外,针对LLM encoder和NMT decoder的适配方法也是一个关键创新。
关键设计:论文的关键设计包括:1) 选择合适的LLM作为encoder,例如可以选择预训练的Transformer模型;2) 设计适配层,用于将LLM encoder的输出映射到NMT decoder的输入空间;3) 探索不同的训练策略,例如可以先固定LLM encoder的参数,只训练适配层和NMT decoder,然后再进行微调;4) 构建包含多任务的数据集,用于评估模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在WMT数据集和自建数据集上均取得了优异的性能,在翻译质量上与一系列基线方法相匹配或超过。更重要的是,该方法实现了2.4到6.5倍的推理速度提升,以及KV缓存75%的内存占用减少,这使得该方法在实际应用中具有显著的优势。
🎯 应用场景
该研究成果可广泛应用于机器翻译领域,尤其是在对翻译速度和资源占用有较高要求的场景下,例如实时翻译、移动设备翻译等。此外,该方法还可以推广到其他序列到序列的任务中,例如文本摘要、对话生成等。通过结合LLM和NMT的优势,有望构建更加通用、高效和智能的自然语言处理系统。
📄 摘要(原文)
The field of neural machine translation (NMT) has changed with the advent of large language models (LLMs). Much of the recent emphasis in natural language processing (NLP) has been on modeling machine translation and many other problems using a single pre-trained Transformer decoder, while encoder-decoder architectures, which were the standard in earlier NMT models, have received relatively less attention. In this paper, we explore translation models that are universal, efficient, and easy to optimize, by marrying the world of LLMs with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder unchanged. We also develop methods for adapting LLMs to work better with the NMT decoder. Furthermore, we construct a new dataset involving multiple tasks to assess how well the machine translation system generalizes across various tasks. Evaluations on the WMT and our datasets show that results using our method match or surpass a range of baselines in terms of translation quality, but achieve $2.4 \sim 6.5 \times$ inference speedups and a $75\%$ reduction in the memory footprint of the KV cache. It also demonstrates strong generalization across a variety of translation-related tasks.