Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality
作者: Mengyu Bu, Yang Feng
分类: cs.CL
发布日期: 2026-03-18
备注: Submitted to ACL 2026. The code is available at https://github.com/ictnlp/XBridge
💡 一句话要点
提出XBridge,利用翻译模型增强LLM的多语言能力,解决低资源语言性能瓶颈。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言学习 大型语言模型 机器翻译 跨语言对齐 低资源语言
📋 核心要点
- 现有LLM在多语言任务中表现不均衡,尤其在低资源语言上性能较差,无法有效利用其内部的跨语言知识。
- XBridge通过结合预训练翻译模型,将多语言理解和生成任务转移到翻译模型,同时保留LLM处理通用知识。
- 引入跨模型映射层和基于最优传输的对齐目标,解决模型间表示不对齐问题,提升多语言生成的语义一致性。
📝 摘要(中文)
大型语言模型(LLM)展现出强大的通用智能,但其多语言性能仍然高度不平衡。尽管LLM在统一的语义空间中编码了大量的跨语言知识,但它们通常难以可靠地将这些知识与低资源或未见过的语言连接起来。幸运的是,预训练的编码器-解码器翻译模型已经具备平衡的多语言能力,这为LLM提供了一个自然的补充。在这项工作中,我们提出了XBridge,一个组合式的编码器-LLM-解码器架构,它将多语言理解和生成卸载到外部预训练的翻译模型,同时保留LLM作为以英语为中心的核心进行通用知识处理。为了解决由此产生的模型间表示不对齐问题,我们引入了轻量级的跨模型映射层和一个基于最优传输的对齐目标,从而为多语言生成实现细粒度的语义一致性。在多语言理解、推理、摘要和生成方面的四个LLM实验表明,XBridge优于强大的基线,尤其是在低资源和以前未见过的语言上,而无需重新训练LLM。
🔬 方法详解
问题定义:现有大型语言模型(LLM)在多语言任务中表现出显著的性能不平衡,尤其是在低资源语言和未见过的语言上。尽管LLM内部蕴含丰富的跨语言知识,但它们难以有效地将这些知识应用于这些语言,导致性能瓶颈。现有方法通常需要对LLM进行大量多语言数据微调,成本高昂且效果有限。
核心思路:论文的核心思路是将LLM与预训练的编码器-解码器翻译模型相结合,构建一个组合式的架构。LLM负责处理通用知识和推理,而翻译模型则负责多语言理解和生成。这种设计旨在利用翻译模型在多语言方面的优势,同时保留LLM在知识处理方面的能力。
技术框架:XBridge架构包含三个主要模块:编码器(Encoder)、LLM和解码器(Decoder)。编码器负责将源语言文本编码为语义表示,LLM负责处理该表示并生成目标语言的语义表示,解码器负责将目标语言的语义表示解码为目标语言文本。为了弥合编码器、LLM和解码器之间的表示差异,论文引入了跨模型映射层。
关键创新:论文的关键创新在于提出了一种轻量级的跨模型映射层和一个基于最优传输的对齐目标。跨模型映射层用于将编码器和解码器的语义表示映射到LLM的语义空间,从而实现跨模型的语义对齐。基于最优传输的对齐目标用于进一步优化跨模型映射层,确保生成的语义表示在不同模型之间保持一致性。
关键设计:跨模型映射层采用线性变换或多层感知机(MLP)实现。最优传输对齐目标旨在最小化编码器输出和LLM输入之间的距离,以及LLM输出和解码器输入之间的距离。具体而言,论文使用Sinkhorn算法计算最优传输矩阵,并使用该矩阵来对齐不同模型的语义表示。损失函数包括交叉熵损失和最优传输损失,用于联合训练跨模型映射层和LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,XBridge在多语言理解、推理、摘要和生成任务上均优于强大的基线模型。尤其是在低资源和以前未见过的语言上,XBridge的性能提升更为显著。例如,在多语言摘要任务中,XBridge在低资源语言上的ROUGE指标平均提升了5个百分点以上,证明了其在解决多语言性能不平衡问题方面的有效性。
🎯 应用场景
XBridge架构可应用于各种多语言自然语言处理任务,例如机器翻译、跨语言信息检索、多语言摘要和多语言问答。该方法尤其适用于低资源语言场景,可以显著提升LLM在这些语言上的性能。此外,XBridge还可以用于构建更加通用和灵活的多语言AI系统,促进跨文化交流和知识共享。
📄 摘要(原文)
Large language models (LLMs) exhibit strong general intelligence, yet their multilingual performance remains highly imbalanced. Although LLMs encode substantial cross-lingual knowledge in a unified semantic space, they often struggle to reliably interface this knowledge with low-resource or unseen languages. Fortunately, pretrained encoder-decoder translation models already possess balanced multilingual capability, suggesting a natural complement to LLMs. In this work, we propose XBridge, a compositional encoder-LLM-decoder architecture that offloads multilingual understanding and generation to external pretrained translation models, while preserving the LLM as an English-centric core for general knowledge processing. To address the resulting representation misalignment across models, we introduce lightweight cross-model mapping layers and an optimal transport-based alignment objective, enabling fine-grained semantic consistency for multilingual generation. Experiments on four LLMs across multilingual understanding, reasoning, summarization, and generation indicate that XBridge outperforms strong baselines, especially on low-resource and previously unseen languages, without retraining the LLM.