XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples

📄 arXiv: 2405.05116v3 📥 PDF

作者: Peiqin Lin, André F. T. Martins, Hinrich Schütze

分类: cs.CL

发布日期: 2024-05-08 (更新: 2025-02-08)

备注: NAACL 2025 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

XAMPLER:学习检索跨语言上下文示例,提升低资源语言的上下文学习能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言学习 上下文学习 信息检索 低资源语言 多语言模型

📋 核心要点

  1. 现有方法依赖跨语言检索器,但在低资源语言中,此类检索器和标注数据稀缺,限制了跨语言上下文学习。
  2. XAMPLER利用多语言小模型和英文标注数据训练检索器,直接检索英文示例用于目标语言的上下文学习。
  3. 在多语言文本分类任务上,XAMPLER显著提升了跨语言上下文学习的性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种名为XAMPLER的跨语言示例检索方法,旨在解决仅使用英文标注数据进行跨语言上下文学习的挑战。XAMPLER首先利用Glot500(一种多语言小语言模型)训练一个检索器,训练数据由多语言大语言模型MaLA500的预测结果构建的正负英文示例组成。然后,利用检索器的跨语言能力,直接检索英文示例作为目标语言上下文学习的少量样本。在SIB200(包含176种语言)和MasakhaNEWS(包含16种语言)两个多语言文本分类基准数据集上的实验表明,XAMPLER显著提高了跨语言上下文学习的性能。

🔬 方法详解

问题定义:论文旨在解决跨语言上下文学习中,由于缺乏跨语言检索器和标注数据,导致低资源语言的上下文学习性能不佳的问题。现有方法通常依赖于针对特定语言对训练的检索器,或者需要大量的平行语料,这在低资源场景下难以实现。

核心思路:论文的核心思路是利用多语言小语言模型(Glot500)的跨语言能力,以及多语言大语言模型(MaLA500)生成的伪标签数据,训练一个能够从英文数据中检索相关示例的检索器。然后,将检索到的英文示例作为上下文,用于目标语言的上下文学习。这样,就可以避免直接训练跨语言检索器,从而解决低资源问题。

技术框架:XAMPLER的整体框架包含以下几个主要步骤:1) 使用多语言大语言模型MaLA500对英文数据进行预测,生成伪标签;2) 基于伪标签构建正负英文示例;3) 使用Glot500训练一个检索器,使其能够根据输入查询检索相关的英文示例;4) 对于目标语言的输入,使用训练好的检索器检索相关的英文示例;5) 将检索到的英文示例作为上下文,用于目标语言的上下文学习。

关键创新:XAMPLER的关键创新在于它提出了一种仅使用英文标注数据进行跨语言上下文学习的方法。通过利用多语言模型的跨语言能力和伪标签数据,XAMPLER避免了直接训练跨语言检索器,从而解决了低资源语言的上下文学习问题。此外,XAMPLER还提出了一种新的训练检索器的方法,即使用多语言大语言模型的预测结果构建正负示例。

关键设计:在训练检索器时,论文使用了对比学习损失函数,旨在拉近正例之间的距离,推远负例之间的距离。具体来说,对于每个查询,论文选择一个正例和多个负例。正例是与查询具有相同标签的示例,负例是与查询具有不同标签的示例。论文还使用了hard negative mining技术,选择与查询最相似的负例,以提高训练效果。Glot500模型被用作检索器的骨干网络,其参数在训练过程中进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,XAMPLER在SIB200和MasakhaNEWS两个多语言文本分类基准数据集上均取得了显著的性能提升。例如,在SIB200数据集上,XAMPLER相比于基线方法平均提升了5%以上。此外,实验还表明,XAMPLER在低资源语言上的性能提升更为明显,这验证了其在解决低资源问题上的有效性。

🎯 应用场景

XAMPLER具有广泛的应用前景,尤其是在多语言信息检索、机器翻译和跨语言文本分类等领域。它可以帮助提升低资源语言的自然语言处理能力,促进全球范围内的信息共享和交流。此外,该方法还可以应用于其他跨语言任务,例如跨语言问答和跨语言摘要。

📄 摘要(原文)

Recent studies indicate that leveraging off-the-shelf or fine-tuned retrievers, capable of retrieving relevant in-context examples tailored to the input query, enhances few-shot in-context learning of English. However, adapting these methods to other languages, especially low-resource ones, poses challenges due to the scarcity of cross-lingual retrievers and annotated data. Thus, we introduce XAMPLER: Cross-Lingual Example Retrieval, a method tailored to tackle the challenge of cross-lingual in-context learning using only annotated English data. XAMPLER first trains a retriever based on Glot500, a multilingual small language model, using positive and negative English examples constructed from the predictions of a multilingual large language model, i.e., MaLA500. Leveraging the cross-lingual capacity of the retriever, it can directly retrieve English examples as few-shot examples for in-context learning of target languages. Experiments on two multilingual text classification benchmarks, namely SIB200 with 176 languages and MasakhaNEWS with 16 languages, demonstrate that XAMPLER substantially improves the in-context learning performance across languages. Our code is available at https://github.com/cisnlp/XAMPLER.