Evaluating Large Language Models for Cross-Lingual Retrieval

作者: Longfei Zuo, Pingjun Hong, Oliver Kraus, Barbara Plank, Robert Litschko

分类: cs.CL, cs.IR

发布日期: 2025-09-18

备注: Accepted at EMNLP 2025 (Findings)

💡 一句话要点

评估大语言模型在跨语言检索中的应用，揭示检索器与重排序器间的相互作用。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨语言信息检索 大型语言模型 多语言双编码器 重排序 机器翻译 信息检索 自然语言处理

📋 核心要点

现有CLIR方法依赖机器翻译进行第一阶段检索，成本高昂且易引入误差，限制了性能。
论文提出使用多语言双编码器作为第一阶段检索器，并研究其与LLM重排序器的交互作用。
实验表明，多语言双编码器能提升CLIR性能，且更强的重排序模型能减少对翻译的依赖。

📝 摘要（中文）

多阶段信息检索(IR)已成为搜索中广泛采用的范式。虽然大型语言模型(LLM)作为单语IR的第二阶段重排序模型已被广泛评估，但对于跨语言IR(CLIR)仍然缺乏系统的、大规模的比较。此外，虽然先前的工作表明基于LLM的重排序器提高了CLIR性能，但它们的评估设置依赖于使用机器翻译(MT)进行第一阶段的词汇检索。这不仅成本高昂，而且容易在各个阶段之间产生误差传播。我们对段落级和文档级CLIR的评估表明，使用多语言双编码器作为第一阶段检索器可以实现进一步的收益，并且翻译的好处随着更强的重排序模型而减少。我们进一步表明，基于指令调整LLM的成对重排序器与列表式重排序器相比具有竞争力。据我们所知，我们是第一个研究LLM在两阶段CLIR中检索器和重排序器之间相互作用的人。我们的研究结果表明，在没有MT的情况下，当前最先进的重排序器直接应用于CLIR时会严重不足。

🔬 方法详解

问题定义：论文旨在解决跨语言信息检索（CLIR）中，现有方法过度依赖机器翻译（MT）进行第一阶段检索的问题。这种依赖不仅计算成本高昂，而且机器翻译的错误会传递到后续阶段，影响最终检索效果。现有研究对LLM在CLIR中的应用主要集中在重排序阶段，缺乏对检索器和重排序器之间相互作用的系统性研究。

核心思路：论文的核心思路是探索使用多语言双编码器作为第一阶段检索器，以减少对机器翻译的依赖。同时，研究不同类型的LLM重排序器（包括pairwise和listwise）与多语言双编码器检索器之间的协同效应，从而在保证检索效果的同时，降低计算成本和误差传播的风险。

技术框架：论文采用两阶段CLIR框架。第一阶段使用多语言双编码器检索器，从目标语言文档库中检索候选文档。第二阶段使用LLM重排序器，对第一阶段检索到的候选文档进行排序，选择最相关的文档。论文比较了不同类型的LLM重排序器，包括pairwise和listwise方法。

关键创新：论文的主要创新在于系统性地研究了多语言双编码器检索器与LLM重排序器在两阶段CLIR中的相互作用。以往研究主要关注LLM在重排序阶段的应用，而忽略了检索器选择对整体性能的影响。论文首次揭示了在没有机器翻译的情况下，当前最先进的重排序器在直接应用于CLIR时表现不佳，并证明了多语言双编码器可以有效替代机器翻译，提升CLIR性能。

关键设计：论文的关键设计包括：1) 使用多语言双编码器（例如mBERT, XLM-RoBERTa）进行第一阶段检索，通过训练使其能够跨语言理解查询和文档的语义信息。2) 采用instruction-tuned LLM作为pairwise重排序器，并与listwise重排序器进行比较，评估其在CLIR中的性能。3) 实验中，对比了不同检索器和重排序器的组合，以及是否使用机器翻译的影响，从而深入分析了它们之间的相互作用。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用多语言双编码器作为第一阶段检索器，可以显著提升CLIR性能，尤其是在没有机器翻译的情况下。此外，基于指令调整的LLM pairwise重排序器与listwise重排序器相比具有竞争力，在某些情况下甚至表现更好。研究还发现，随着重排序器能力的提升，对机器翻译的需求会降低。

🎯 应用场景

该研究成果可应用于跨语言搜索引擎、多语言问答系统、国际新闻聚合等领域。通过降低对机器翻译的依赖，可以提升跨语言信息检索的效率和准确性，促进不同语言文化之间的信息交流和知识共享。未来的研究可以进一步探索更有效的多语言表示学习方法，以及更智能的检索器和重排序器协同策略。

📄 摘要（原文）

Multi-stage information retrieval (IR) has become a widely-adopted paradigm in search. While Large Language Models (LLMs) have been extensively evaluated as second-stage reranking models for monolingual IR, a systematic large-scale comparison is still lacking for cross-lingual IR (CLIR). Moreover, while prior work shows that LLM-based rerankers improve CLIR performance, their evaluation setup relies on lexical retrieval with machine translation (MT) for the first stage. This is not only prohibitively expensive but also prone to error propagation across stages. Our evaluation on passage-level and document-level CLIR reveals that further gains can be achieved with multilingual bi-encoders as first-stage retrievers and that the benefits of translation diminishes with stronger reranking models. We further show that pairwise rerankers based on instruction-tuned LLMs perform competitively with listwise rerankers. To the best of our knowledge, we are the first to study the interaction between retrievers and rerankers in two-stage CLIR with LLMs. Our findings reveal that, without MT, current state-of-the-art rerankers fall severely short when directly applied in CLIR.

Evaluating Large Language Models for Cross-Lingual Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理