Languages are Modalities: Cross-Lingual Alignment via Encoder Injection
作者: Rajan Agarwal, Aarush Gupta
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-10-31
备注: 14 pages, 3 Figures
💡 一句话要点
提出LLINK,通过编码器注入实现低资源语言LLM的跨语言对齐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低资源语言处理 跨语言对齐 编码器注入 语言即模态 大型语言模型 指令微调 双语检索
📋 核心要点
- 现有指令微调LLM在低资源语言上表现差,主要原因是分词碎片化和跨语言耦合不足。
- LLINK将低资源语言视为一种模态,通过编码器注入,在不改变分词器和解码器的情况下实现跨语言对齐。
- 实验表明,LLINK显著提升了双语检索和问答性能,优于基线模型和直接微调方法。
📝 摘要(中文)
由于分词器碎片化和较弱的跨语言耦合,指令微调的大型语言模型(LLM)在低资源、非拉丁文字上的表现不佳。我们提出了LLINK(用于非英语知识的潜在语言注入),这是一种计算高效的语言即模态方法,它在不改变分词器或重新训练解码器的情况下,调节指令微调的解码器。首先,我们通过轻量级的对比投影器,将来自冻结的多语言编码器的句子嵌入对齐到解码器在保留位置的潜在嵌入空间。其次,该向量被扩展为K个软槽,并使用最小的适配器进行训练,以便冻结的解码器能够利用该信号。LLINK显著提高了双语检索,并在LLM判断的问答评估中,相对于基线模型获得了81.3%的偏好,相对于直接微调获得了63.6%的偏好。我们进一步发现,改进可以归因于分词膨胀的减少和更强的跨语言对齐,尽管该模型在数字保真度方面仍存在残余弱点。将低资源语言视为一种模态,为轻量级LLM中更强的跨语言对齐提供了一条实用的途径。
🔬 方法详解
问题定义:论文旨在解决低资源语言在指令微调大型语言模型(LLM)中表现不佳的问题。现有方法,如直接微调,由于分词器碎片化(tokenizer fragmentation)和跨语言耦合较弱,导致模型无法有效利用低资源语言的知识。这使得LLM在处理这些语言时,性能显著下降。
核心思路:论文的核心思路是将低资源语言视为一种模态,类似于图像或音频。通过将低资源语言的句子嵌入注入到LLM的解码器中,从而使模型能够更好地理解和利用这些语言的知识。这种方法避免了修改分词器或重新训练整个解码器,从而降低了计算成本。
技术框架:LLINK框架包含以下主要模块:1) 冻结的多语言编码器:用于生成低资源语言句子的嵌入表示。2) 对比投影器:将多语言编码器的句子嵌入对齐到解码器的潜在嵌入空间。3) 软槽扩展:将对齐后的向量扩展为K个软槽,以便解码器能够更好地利用该信号。4) 冻结的指令微调解码器:利用注入的语言信息进行下游任务。整个流程是,首先使用多语言编码器提取低资源语言的句子嵌入,然后通过对比投影器将其映射到解码器的潜在空间,接着将映射后的向量扩展为软槽,最后将这些软槽输入到冻结的解码器中进行处理。
关键创新:LLINK的关键创新在于将语言视为一种模态,并通过编码器注入的方式,在不改变分词器和解码器的情况下,实现了低资源语言的跨语言对齐。这种方法不仅降低了计算成本,而且能够有效地提升LLM在低资源语言上的性能。与现有方法相比,LLINK避免了修改分词器带来的问题,并能够更好地利用预训练的解码器。
关键设计:对比投影器使用对比损失函数进行训练,以确保多语言编码器的句子嵌入能够准确地映射到解码器的潜在空间。软槽的数量K是一个关键参数,需要根据具体任务进行调整。适配器(adapters)被用于训练软槽,以便解码器能够更好地利用注入的语言信息。论文中使用了最小的适配器,以降低计算成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLINK在双语检索任务上取得了显著的提升,并在LLM判断的问答评估中,相对于基线模型获得了81.3%的偏好,相对于直接微调获得了63.6%的偏好。这些结果表明,LLINK能够有效地提升LLM在低资源语言上的性能,并优于现有的微调方法。此外,研究还发现,改进可以归因于分词膨胀的减少和更强的跨语言对齐。
🎯 应用场景
该研究成果可应用于机器翻译、跨语言信息检索、多语言问答系统等领域。通过提升LLM在低资源语言上的性能,可以促进全球范围内的信息交流和知识共享。此外,该方法还可以应用于其他模态的融合,例如将图像或音频信息注入到LLM中,从而实现更强大的多模态理解能力。未来,该研究有望推动低资源语言处理和多模态学习的发展。
📄 摘要(原文)
Instruction-tuned Large Language Models (LLMs) underperform on low resource, non-Latin scripts due to tokenizer fragmentation and weak cross-lingual coupling. We present LLINK (Latent Language Injection for Non-English Knowledge), a compute efficient language-as-modality method that conditions an instruction-tuned decoder without changing the tokenizer or retraining the decoder. First, we align sentence embeddings from a frozen multilingual encoder to the decoder's latent embedding space at a reserved position via a lightweight contrastive projector. Second, the vector is expanded into K soft slots and trained with minimal adapters so the frozen decoder consumes the signal. LLINK substantially improves bilingual retrieval and achieves 81.3% preference over the base model and 63.6% over direct fine-tuning in LLM-judged Q&A evaluations. We further find that improvements can be attributed to reduced tokenization inflation and a stronger cross lingual alignment, despite the model having residual weaknesses in numeric fidelity. Treating low resource languages as a modality offers a practical path to stronger cross-lingual alignment in lightweight LLMs.