Mistral-SPLADE: LLMs for better Learned Sparse Retrieval

📄 arXiv: 2408.11119v2 📥 PDF

作者: Meet Doshi, Vishwajeet Kumar, Rudra Murthy, Vignesh P, Jaydeep Sen

分类: cs.IR, cs.CL

发布日期: 2024-08-20 (更新: 2024-08-22)


💡 一句话要点

Mistral-SPLADE:利用LLM改进学习型稀疏检索,显著提升检索性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 学习型稀疏检索 大型语言模型 信息检索 语义关键词扩展 Mistral BEIR基准 仅解码器模型

📋 核心要点

  1. 现有学习型稀疏检索器依赖于仅编码器模型,在语义关键词扩展的学习能力上存在局限性。
  2. 论文提出使用仅解码器模型(Mistral)作为骨干,学习更有效的语义关键词扩展,提升检索性能。
  3. 实验表明,基于Mistral的稀疏检索模型超越了现有LSR系统,在BEIR基准上取得了SOTA结果。

📝 摘要(中文)

学习型稀疏检索器(LSR)已经发展成为一种有效的检索策略,可以弥合传统基于关键词的稀疏检索器和基于嵌入的稠密检索器之间的差距。本质上,学习型稀疏检索器试图从查询和/或文档中学习最重要的语义关键词扩展,这可以通过重叠的关键词扩展来促进更好的检索。像SPLADE这样的LSR通常使用仅编码器模型,结合MLM(掩码语言建模)风格的目标,以及已知的检索性能改进方法,如硬负例挖掘、知识蒸馏等。在这项工作中,我们提出使用仅解码器模型来学习语义关键词扩展。我们认为,已经见过更大量数据的仅解码器模型更适合学习改进检索所需的关键词扩展。我们使用Mistral作为骨干来开发类似于SPLADE的学习型稀疏检索器,并在sentence-transformer数据的一个子集上对其进行训练,该子集通常用于训练文本嵌入模型。我们的实验支持了这样的假设:基于仅解码器大型语言模型(LLM)的稀疏检索模型超过了现有LSR系统的性能,包括SPLADE及其所有变体。基于LLM的模型(Echo-Mistral-SPLADE)现在是BEIR文本检索基准测试中最先进的学习型稀疏检索模型。

🔬 方法详解

问题定义:论文旨在解决学习型稀疏检索器(LSR)在语义关键词扩展学习上的不足。现有的LSR,如SPLADE,主要依赖于仅编码器模型,其学习能力受限,无法充分挖掘查询和文档中的语义信息,导致检索性能提升空间有限。

核心思路:论文的核心思路是利用大规模预训练的仅解码器模型(如Mistral)来学习语义关键词扩展。仅解码器模型在海量数据上进行训练,具备更强的语言理解和生成能力,能够更好地捕捉关键词之间的语义关系,从而生成更有效的关键词扩展。

技术框架:整体框架与SPLADE类似,但核心在于使用Mistral作为backbone。训练过程包括:1) 使用sentence-transformer数据集的子集进行训练;2) 采用类似于SPLADE的训练目标,优化模型以生成高质量的关键词扩展;3) 使用生成的关键词扩展进行检索。

关键创新:最重要的创新点在于使用仅解码器LLM(Mistral)作为LSR的骨干模型。与传统的仅编码器模型相比,LLM具有更强大的语义理解和生成能力,能够学习到更有效的关键词扩展,从而显著提升检索性能。

关键设计:论文使用Mistral-7B作为backbone,并采用与SPLADE类似的训练策略。具体的技术细节包括:1) 使用sentence-transformers数据集进行训练;2) 采用MLM风格的训练目标,鼓励模型学习生成与原始查询/文档相关的关键词;3) 通过调整超参数和优化训练过程,进一步提升模型的性能。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,基于Mistral的稀疏检索模型(Echo-Mistral-SPLADE)在BEIR文本检索基准测试中取得了最先进的性能,超越了包括SPLADE及其变体在内的所有现有LSR系统。这证明了使用LLM进行语义关键词扩展的有效性,并为未来的LSR研究提供了新的方向。

🎯 应用场景

该研究成果可广泛应用于信息检索、问答系统、搜索引擎等领域。通过提升检索的准确性和召回率,可以改善用户体验,提高信息获取效率。未来,该方法可以进一步扩展到其他语言和领域,并与其他检索技术相结合,构建更强大的检索系统。

📄 摘要(原文)

Learned Sparse Retrievers (LSR) have evolved into an effective retrieval strategy that can bridge the gap between traditional keyword-based sparse retrievers and embedding-based dense retrievers. At its core, learned sparse retrievers try to learn the most important semantic keyword expansions from a query and/or document which can facilitate better retrieval with overlapping keyword expansions. LSR like SPLADE has typically been using encoder only models with MLM (masked language modeling) style objective in conjunction with known ways of retrieval performance improvement such as hard negative mining, distillation, etc. In this work, we propose to use decoder-only model for learning semantic keyword expansion. We posit, decoder only models that have seen much higher magnitudes of data are better equipped to learn keyword expansions needed for improved retrieval. We use Mistral as the backbone to develop our Learned Sparse Retriever similar to SPLADE and train it on a subset of sentence-transformer data which is often used for training text embedding models. Our experiments support the hypothesis that a sparse retrieval model based on decoder only large language model (LLM) surpasses the performance of existing LSR systems, including SPLADE and all its variants. The LLM based model (Echo-Mistral-SPLADE) now stands as a state-of-the-art learned sparse retrieval model on the BEIR text retrieval benchmark.