Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment

📄 arXiv: 2407.14878v2 📥 PDF

作者: Yongxin Huang, Kexin Wang, Goran Glavaš, Iryna Gurevych

分类: cs.CL

发布日期: 2024-07-20 (更新: 2025-05-30)

备注: Accepted for ACL 2025 main conference


💡 一句话要点

提出模块化句子编码器,分离语言特性学习与跨语言对齐,提升多语言表征能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言句子编码器 模块化训练 跨语言对齐 低资源语言 语义文本相似性

📋 核心要点

  1. 多语言句子编码器存在“多语言诅咒”问题,即参数共享导致单语性能下降。
  2. 提出模块化训练方法,先训练语言特定模块,再用跨语言对齐适配器对齐。
  3. 实验表明,该方法在单语和跨语言任务上均优于传统方法,尤其提升了低资源语言性能。

📝 摘要(中文)

多语言句子编码器(MSEs)通常通过训练多语言语言模型,将来自不同语言的句子映射到共享的语义空间。然而,它们受到多语言诅咒的影响,即由于参数共享而导致单语表征精度的损失。MSEs的另一个限制是不同任务性能之间的权衡:跨语言对齐训练会扭曲单个语言语义空间的最佳单语结构,损害句子嵌入在单语任务中的效用;跨语言任务,如跨语言语义相似性和句子分类的零样本迁移,也可能需要冲突的跨语言对齐策略。本文通过句子编码器的模块化训练来解决这两个问题。首先,训练特定于语言的单语模块,以减轻语言之间的负面干扰(即诅咒)。然后,通过训练跨语言对齐适配器,将所有非英语句子嵌入与英语对齐,防止第一步中的单语专业化受到干扰。我们使用两种不同类型的数据训练跨语言适配器,以解决不同跨语言任务的冲突需求。在语义文本相似性和相关性、双语文本挖掘和句子分类上的单语和跨语言结果表明,与单片多语言句子编码器的全参数训练相比,我们的模块化解决方案在所有任务中实现了更好和更平衡的性能,尤其是有利于低资源语言。

🔬 方法详解

问题定义:论文旨在解决多语言句子编码器(MSEs)中存在的两个主要问题:一是“多语言诅咒”,即由于参数共享,MSEs在单语任务上的表现不如单语模型;二是不同跨语言任务(如语义相似度和零样本迁移)对跨语言对齐策略的需求存在冲突,导致性能权衡。现有方法通常采用全参数训练,难以兼顾单语和跨语言性能。

核心思路:论文的核心思路是将语言特性学习和跨语言对齐解耦,通过模块化训练的方式分别优化。首先,训练独立的、特定于语言的单语模块,以最大程度地保留每个语言的特性,避免语言间的负面干扰。然后,引入跨语言对齐适配器,将不同语言的句子嵌入对齐到统一的语义空间,从而实现跨语言能力。这种解耦的设计允许针对不同的跨语言任务采用不同的对齐策略,从而避免性能权衡。

技术框架:整体框架包含两个主要阶段:1) 单语模块训练:为每种语言训练一个独立的句子编码器模块,目标是最大化单语表征能力。可以使用各种单语训练目标,如对比学习、掩码语言模型等。2) 跨语言对齐适配器训练:在单语模块的基础上,训练跨语言对齐适配器,将非英语语言的句子嵌入映射到英语的语义空间。适配器可以采用简单的线性变换或更复杂的神经网络结构。针对不同的跨语言任务,可以使用不同的训练数据和损失函数。

关键创新:论文的关键创新在于提出了模块化的训练框架,将语言特性学习和跨语言对齐分离。这种分离允许独立优化每个模块,避免了全参数训练中的性能权衡。此外,论文还提出了使用不同数据训练跨语言适配器的策略,以适应不同跨语言任务的需求。

关键设计:论文的关键设计包括:1) 单语模块的选择:可以使用预训练的单语语言模型作为单语模块的初始化,并进行微调。2) 跨语言对齐适配器的结构:可以使用线性变换或多层感知机等结构。3) 跨语言对齐的训练数据:可以使用平行语料、机器翻译数据或伪平行语料。4) 跨语言对齐的损失函数:可以使用对比损失、翻译损失或对抗损失等。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该模块化方法在语义文本相似性、双语文本挖掘和句子分类等任务上均取得了显著提升。尤其是在低资源语言上,该方法相比于全参数训练的基线模型,性能提升更为明显。例如,在某些任务上,低资源语言的性能提升超过了10%。

🎯 应用场景

该研究成果可应用于跨语言信息检索、机器翻译、跨语言文本分类等领域。通过提升多语言句子表征的质量,可以提高跨语言应用的效果,尤其是在低资源语言场景下。未来,该方法可以扩展到更多语言和任务,促进多语言自然语言处理的发展。

📄 摘要(原文)

Multilingual sentence encoders (MSEs) are commonly obtained by training multilingual language models to map sentences from different languages into a shared semantic space. As such, they are subject to curse of multilinguality, a loss of monolingual representational accuracy due to parameter sharing. Another limitation of MSEs is the trade-off between different task performance: cross-lingual alignment training distorts the optimal monolingual structure of semantic spaces of individual languages, harming the utility of sentence embeddings in monolingual tasks; cross-lingual tasks, such as cross-lingual semantic similarity and zero-shot transfer for sentence classification, may also require conflicting cross-lingual alignment strategies. In this work, we address both issues by means of modular training of sentence encoders. We first train language-specific monolingual modules to mitigate negative interference between languages (i.e., the curse). We then align all non-English sentence embeddings to the English by training cross-lingual alignment adapters, preventing interference with monolingual specialization from the first step. We train the cross-lingual adapters with two different types of data to resolve the conflicting requirements of different cross-lingual tasks. Monolingual and cross-lingual results on semantic text similarity and relatedness, bitext mining and sentence classification show that our modular solution achieves better and more balanced performance across all the tasks compared to full-parameter training of monolithic multilingual sentence encoders, especially benefiting low-resource languages.