Multilinguality Does not Make Sense: Investigating Factors Behind Zero-Shot Transfer in Sense-Aware Tasks

📄 arXiv: 2505.24834v2 📥 PDF

作者: Roksana Goworek, Haim Dubossarsky

分类: cs.CL

发布日期: 2025-05-30 (更新: 2025-10-16)

备注: accepted to EMNLP 2025 Main


💡 一句话要点

多语言并非提升词义理解任务零样本迁移的关键,数据和评估更重要

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言迁移 零样本学习 词义理解 多语言模型 低资源语言

📋 核心要点

  1. 现有方法过度依赖多语言训练来提升跨语言迁移性能,忽略了其他重要因素的影响。
  2. 该研究通过大规模实验分析,揭示了预训练数据、微调数据和评估标准对零样本迁移的显著影响。
  3. 实验结果表明,多语言性并非词义理解任务零样本迁移的必要条件,其他因素的影响更为关键。

📝 摘要(中文)

跨语言迁移是现代自然语言处理的核心,它使模型能够在未经训练的语言上执行任务。一个常见的假设是,在更多语言上训练可以改善零样本迁移。本文在词义理解任务(多义性和词汇语义变化)上对此进行了测试,发现多语言性对于有效的迁移并非必要。通过对28种语言的大规模分析表明,预训练和微调数据的差异以及评估标准等人为因素,更好地解释了多语言性带来的好处。同时,发布了微调模型并提供了经验基线,以支持未来的研究。虽然专注于两个词义理解任务,但研究结果为跨语言迁移提供了更广泛的见解,尤其是在低资源语言方面。

🔬 方法详解

问题定义:现有方法在进行跨语言迁移时,通常认为训练语料的语言种类越多,模型在目标语言上的表现就越好。然而,这种观点忽略了不同语言的预训练数据质量、微调数据分布以及评估方式差异等因素对迁移效果的影响。因此,需要探究多语言性在跨语言迁移中的真实作用,并识别其他更重要的影响因素。

核心思路:该研究的核心思路是通过控制变量法,大规模分析不同因素对零样本跨语言迁移的影响。具体来说,通过在多种语言上进行实验,并仔细分析预训练数据、微调数据和评估标准等因素的差异,从而揭示多语言性在跨语言迁移中的真实作用。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择词义理解任务,包括多义性和词汇语义变化;2) 选择多种语言进行实验,覆盖不同语系和资源量级;3) 使用预训练语言模型作为基础模型,并在不同语言上进行微调;4) 设计实验,控制预训练数据、微调数据和评估标准等因素的差异;5) 分析实验结果,评估多语言性以及其他因素对零样本迁移的影响。

关键创新:该研究的关键创新在于,它挑战了多语言性是跨语言迁移必要条件的传统观点,并通过大规模实验证明,预训练数据、微调数据和评估标准等因素对零样本迁移的影响更为显著。此外,该研究还发布了微调模型和经验基线,为未来的研究提供了有价值的资源。

关键设计:在实验设计方面,该研究精心控制了预训练数据和微调数据的质量和数量,并设计了多种评估方案,以消除评估标准差异带来的影响。例如,在评估多义性任务时,使用了多种不同的数据集和评估指标,以确保结果的可靠性。此外,该研究还对不同语言的预训练模型进行了详细的分析,以了解其对迁移效果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过对28种语言的大规模分析,发现多语言性并非词义理解任务零样本迁移的必要条件。实验结果表明,预训练和微调数据的差异以及评估标准等人为因素,对迁移效果的影响更为显著。该研究还发布了微调模型和经验基线,为未来的研究提供了宝贵的资源。

🎯 应用场景

该研究成果可应用于低资源语言的自然语言处理任务,通过优化预训练和微调数据,以及设计合理的评估方法,可以在无需大量多语言训练数据的情况下,提升模型在低资源语言上的性能。这对于促进全球范围内的语言平等和信息可访问性具有重要意义。

📄 摘要(原文)

Cross-lingual transfer is central to modern NLP, enabling models to perform tasks in languages different from those they were trained on. A common assumption is that training on more languages improves zero-shot transfer. We test this on sense-aware tasks-polysemy and lexical semantic change-and find that multilinguality is not necessary for effective transfer. Our large-scale analysis across 28 languages reveals that other factors, such as differences in pretraining and fine-tuning data and evaluation artifacts, better explain the perceived benefits of multilinguality. We also release fine-tuned models and provide empirical baselines to support future research. While focused on two sense-aware tasks, our findings offer broader insights into cross-lingual transfer, especially for low-resource languages.