Adapting Multilingual Embedding Models to Historical Luxembourgish

📄 arXiv: 2502.07938v3 📥 PDF

作者: Andrianos Michail, Corina Julia Raclé, Juri Opitz, Simon Clematide

分类: cs.CL

发布日期: 2025-02-11 (更新: 2025-03-13)

备注: To appear in LaTeCH-CLfL 2025


💡 一句话要点

针对历史卢森堡语,提出自适应多语言嵌入模型以提升跨语言语义搜索性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 历史卢森堡语 多语言嵌入 跨语言语义搜索 对比学习 知识蒸馏 低资源语言 平行语料

📋 核心要点

  1. 现有预训练多语言模型在处理包含OCR噪声和过时拼写的历史文本时,语义搜索效果不佳。
  2. 利用历史卢森堡语平行语料,通过对比学习和知识蒸馏方法,自适应调整多语言嵌入模型。
  3. 实验表明,调整后的模型在历史卢森堡语跨语言语义搜索任务上,显著提升了准确率。

📝 摘要(中文)

日益增长的数字化历史文本需要有效的语义搜索,而文本嵌入是关键。然而,预训练多语言模型在处理历史内容时面临OCR噪声和过时拼写的挑战。本研究考察了多语言嵌入在历史卢森堡语(一种低资源语言)跨语言语义搜索中的应用。我们收集了不同时期的历史卢森堡语新闻文章,并使用GPT-4o进行句子分割和翻译,为每个语言对生成20,000个平行训练句子。此外,我们创建了一个语义搜索(历史LB双语挖掘)评估集,发现现有模型在历史卢森堡语的跨语言搜索中表现不佳。通过使用我们的历史数据和额外的现代平行训练数据,我们通过对比学习或知识蒸馏来调整多个多语言嵌入模型,并显著提高了所有模型的准确性。我们发布了我们调整后的模型和历史卢森堡语-德语/法语/英语双语文本,以支持进一步的研究。

🔬 方法详解

问题定义:论文旨在解决历史卢森堡语的跨语言语义搜索问题。现有预训练的多语言嵌入模型在处理历史文本时,由于OCR错误、拼写过时以及语言演变等因素,表现不佳,无法有效捕捉历史卢森堡语的语义信息。这限制了对大量数字化历史卢森堡语文本的有效检索和分析。

核心思路:论文的核心思路是利用历史卢森堡语的平行语料,通过对比学习和知识蒸馏等技术,对现有的多语言嵌入模型进行微调和适配,使其能够更好地理解和表示历史卢森堡语的语义信息。通过这种方式,可以克服历史文本带来的挑战,提高跨语言语义搜索的准确性。

技术框架:整体框架包括以下几个主要阶段:1) 数据收集:收集历史卢森堡语新闻文章,并使用GPT-4o进行句子分割和翻译,生成平行语料。2) 模型选择:选择多个预训练的多语言嵌入模型作为基础模型。3) 模型适配:使用对比学习或知识蒸馏方法,利用平行语料对基础模型进行微调。4) 评估:在构建的语义搜索评估集上,评估适配后模型的性能。

关键创新:论文的关键创新在于针对历史卢森堡语这种低资源语言,提出了一种有效的多语言嵌入模型自适应方法。该方法结合了对比学习和知识蒸馏,能够充分利用有限的平行语料,提升模型在历史文本上的语义表示能力。此外,论文还构建了一个专门用于评估历史卢森堡语跨语言语义搜索性能的评估数据集。

关键设计:论文的关键设计包括:1) 使用GPT-4o生成高质量的平行语料,为模型训练提供充足的数据。2) 选择合适的对比学习目标函数,例如InfoNCE,以最大化正样本之间的相似度,最小化负样本之间的相似度。3) 使用知识蒸馏方法,将大型模型的知识迁移到小型模型,提高模型的效率。4) 精心设计评估指标,例如Mean Reciprocal Rank (MRR),以全面评估模型的语义搜索性能。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,通过对比学习和知识蒸馏方法适配后的多语言嵌入模型,在历史卢森堡语跨语言语义搜索任务上取得了显著的性能提升。具体而言,所有适配后的模型在构建的评估数据集上都获得了更高的准确率,表明该方法能够有效提升模型对历史文本的语义理解能力。

🎯 应用场景

该研究成果可应用于历史文献检索、数字化档案馆建设、历史语言研究等领域。通过提升历史卢森堡语的跨语言语义搜索能力,可以更有效地挖掘和利用珍贵的历史文化资源,促进相关领域的研究和发展。此外,该方法也为其他低资源历史语言的语义搜索提供了借鉴。

📄 摘要(原文)

The growing volume of digitized historical texts requires effective semantic search using text embeddings. However, pre-trained multilingual models face challenges with historical content due to OCR noise and outdated spellings. This study examines multilingual embeddings for cross-lingual semantic search in historical Luxembourgish (LB), a low-resource language. We collect historical Luxembourgish news articles from various periods and use GPT-4o for sentence segmentation and translation, generating 20,000 parallel training sentences per language pair. Additionally, we create a semantic search (Historical LB Bitext Mining) evaluation set and find that existing models perform poorly on cross-lingual search for historical Luxembourgish. Using our historical and additional modern parallel training data, we adapt several multilingual embedding models through contrastive learning or knowledge distillation and increase accuracy significantly for all models. We release our adapted models and historical Luxembourgish-German/French/English bitexts to support further research.