Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples

📄 arXiv: 2502.08638v4 📥 PDF

作者: Andrianos Michail, Simon Clematide, Rico Sennrich

分类: cs.CL

发布日期: 2025-02-12 (更新: 2025-10-09)

备注: To appear in EMNLP2025 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

提出CLSD评估方法,利用LLM生成对抗样本,更有效地评估跨语言语义搜索模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言语义搜索 对抗样本 大型语言模型 模型评估 跨语言嵌入

📋 核心要点

  1. 现有跨语言语义搜索模型的评估依赖于现有数据集,缺乏针对性的对抗性测试,难以全面评估模型的鲁棒性。
  2. 提出Cross-Lingual Semantic Discrimination (CLSD) 评估方法,利用LLM生成与真实平行句语义相似但具有误导性的对抗样本。
  3. 实验表明,检索任务微调模型受益于英语枢轴,而双语文本挖掘模型在直接跨语言设置中表现更佳,揭示模型对语言扰动的敏感性差异。

📝 摘要(中文)

跨语言语义搜索模型的评估通常受限于信息检索和语义文本相似性等任务的现有数据集。本文提出了一种轻量级的评估任务——跨语言语义区分(CLSD),该任务仅需要平行句子和一个大型语言模型(LLM)来生成对抗性的干扰项。CLSD衡量的是嵌入模型将真实的平行句子排序在语义上具有误导性但词汇上相似的替代方案之上的能力。作为一个案例研究,我们构建了德语-法语新闻领域的CLSD数据集。实验表明,针对检索任务进行微调的模型受益于通过英语进行枢轴,而双语文本挖掘模型在直接跨语言设置中表现最佳。更细粒度的相似性分析进一步揭示了嵌入模型对语言扰动的敏感性差异。我们以AGPL-3.0协议发布了我们的代码和数据集:https://github.com/impresso/cross_lingual_semantic_discrimination

🔬 方法详解

问题定义:现有的跨语言语义搜索模型评估方法主要依赖于现有的信息检索和语义文本相似性数据集。这些数据集可能无法充分测试模型在面对语义相似但具有误导性的干扰项时的鲁棒性。因此,需要一种更具挑战性和针对性的评估方法来衡量模型区分细微语义差异的能力。

核心思路:本文的核心思路是利用大型语言模型(LLM)生成对抗样本,这些样本在词汇上与真实的平行句子相似,但在语义上具有误导性。通过要求模型将真实的平行句子排序在这些对抗样本之上,可以更有效地评估模型区分细微语义差异的能力。这种方法模拟了现实世界中跨语言语义搜索可能遇到的挑战。

技术框架:CLSD评估框架主要包含以下几个步骤:1) 选择平行句子对作为正样本。2) 使用LLM基于正样本生成对抗样本(负样本),这些样本在词汇上与正样本相似,但在语义上具有误导性。3) 使用待评估的跨语言嵌入模型计算正样本和负样本的嵌入向量。4) 计算正样本和负样本之间的相似度得分。5) 根据相似度得分对正样本和负样本进行排序。6) 使用排序指标(如Recall@1)评估模型区分正负样本的能力。

关键创新:该方法最重要的创新点在于利用LLM自动生成对抗样本。与手动构建对抗样本相比,这种方法更加高效、可扩展,并且可以生成更具挑战性的对抗样本。此外,该方法提供了一种轻量级的评估框架,可以方便地应用于不同的跨语言嵌入模型和语言对。

关键设计:在生成对抗样本时,需要仔细设计LLM的prompt,以确保生成的样本在词汇上与正样本相似,但在语义上具有误导性。例如,可以使用以下prompt:“生成一个与句子X语义相似,但含义不同的句子”。此外,可以使用不同的LLM和不同的prompt策略来生成多样化的对抗样本。在计算相似度得分时,可以使用余弦相似度或其他常用的相似度度量方法。在评估模型性能时,可以使用Recall@K、Mean Average Precision (MAP)等指标。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,针对检索任务进行微调的模型在通过英语进行枢轴时表现更好,而双语文本挖掘模型在直接跨语言设置中表现最佳。更细粒度的相似性分析揭示了不同嵌入模型对语言扰动的敏感性差异。例如,某些模型对词序变化更敏感,而另一些模型对同义词替换更敏感。在德语-法语新闻领域的CLSD数据集上进行了案例研究,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于跨语言信息检索、机器翻译评估、多语言知识图谱构建等领域。通过CLSD评估,可以更好地了解不同跨语言嵌入模型的优缺点,从而选择更适合特定任务的模型。此外,该方法还可以用于指导跨语言嵌入模型的训练,提高模型的鲁棒性和泛化能力。未来,该方法可以扩展到更多的语言对和领域,并应用于更复杂的跨语言任务。

📄 摘要(原文)

The evaluation of cross-lingual semantic search models is often limited to existing datasets from tasks such as information retrieval and semantic textual similarity. We introduce Cross-Lingual Semantic Discrimination (CLSD), a lightweight evaluation task that requires only parallel sentences and a Large Language Model (LLM) to generate adversarial distractors. CLSD measures an embedding model's ability to rank the true parallel sentence above semantically misleading but lexically similar alternatives. As a case study, we construct CLSD datasets for German--French in the news domain. Our experiments show that models fine-tuned for retrieval tasks benefit from pivoting through English, whereas bitext mining models perform best in direct cross-lingual settings. A fine-grained similarity analysis further reveals that embedding models differ in their sensitivity to linguistic perturbations. We release our code and datasets under AGPL-3.0: https://github.com/impresso/cross_lingual_semantic_discrimination