Generative Retrieval with Few-shot Indexing

作者: Arian Askari, Chuan Meng, Mohammad Aliannejadi, Zhaochun Ren, Evangelos Kanoulas, Suzan Verberne

分类: cs.IR, cs.AI, cs.CL, cs.LG

发布日期: 2024-08-04 (更新: 2025-12-23)

备注: Accepted for publication at the 48th European Conference on Information Retrieval (ECIR 2026)

💡 一句话要点

提出Few-Shot GR框架，通过少量样本索引实现高效生成式检索，解决训练成本高和适应性差的问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 生成式检索 少量样本学习 大型语言模型 信息检索 索引构建

📋 核心要点

现有生成式检索方法训练成本高昂，难以充分利用大型语言模型的预训练知识，且对动态文档语料库的适应性有限。
Few-Shot GR框架通过少量样本索引，提示大型语言模型为文档生成docid，构建docid库，实现无需训练的检索。
实验结果表明，Few-Shot GR在性能上优于需要大量训练的现有生成式检索方法，展现出更强的实用性。

📝 摘要（中文）

现有的生成式检索（GR）方法依赖于基于训练的索引，该方法微调模型以记忆查询和相关文档标识符（docid）之间的关联。基于训练的索引存在训练成本高、大型语言模型（LLM）中预训练知识利用不足以及对动态文档语料库的适应性有限等问题。为了解决这些问题，我们提出了一个基于少量样本索引的GR框架（Few-Shot GR）。它具有无需任何训练的少量样本索引过程，我们提示LLM为语料库中的所有文档生成docid，最终为整个语料库创建一个docid库。在检索期间，我们将查询输入到同一个LLM，并约束它生成docid库中已有的docid，然后将生成的docid映射回其对应的文档。此外，我们设计了具有一对多映射的少量样本索引，以进一步增强Few-Shot GR。实验表明，Few-Shot GR实现了优于需要大量训练的最新GR方法的性能。

🔬 方法详解

问题定义：现有生成式检索方法依赖于训练来建立查询和文档ID之间的映射关系，这导致了高昂的训练成本，尤其是在文档集合动态变化时，需要重新训练模型。此外，这些方法未能充分利用大型语言模型中已经存在的知识，限制了模型的泛化能力。

核心思路：Few-Shot GR的核心思路是利用大型语言模型的生成能力，通过少量样本提示（few-shot prompting）的方式，让模型直接为文档生成唯一的ID（docid），从而建立文档和ID之间的映射关系。在检索时，模型根据查询生成docid，然后通过docid找到对应的文档。这种方法避免了大规模的训练，并且能够更好地利用预训练语言模型的知识。

技术框架：Few-Shot GR框架主要包含两个阶段：索引阶段和检索阶段。在索引阶段，首先使用少量样本提示大型语言模型，让其为语料库中的每个文档生成一个唯一的docid，并将docid和文档之间的映射关系存储在docid库中。在检索阶段，将查询输入到同一个大型语言模型中，并约束模型生成docid库中已有的docid。然后，通过docid库将生成的docid映射回对应的文档，作为检索结果。

关键创新：Few-Shot GR的关键创新在于使用少量样本索引，避免了大规模的训练过程。它充分利用了大型语言模型的生成能力和预训练知识，实现了高效的生成式检索。此外，论文还提出了具有一对多映射的少量样本索引，允许一个文档对应多个docid，从而进一步提升检索性能。

关键设计：在索引阶段，关键在于设计有效的少量样本提示，引导大型语言模型生成高质量的docid。论文可能采用了特定的prompt模板，并探索了不同的prompt策略。在检索阶段，需要约束模型生成docid库中已有的docid，这可以通过调整模型的解码策略来实现。此外，一对多映射的实现可能涉及到对文档进行分块或使用不同的prompt生成多个docid。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Few-Shot GR在性能上优于需要大量训练的现有生成式检索方法。具体而言，Few-Shot GR在多个基准数据集上取得了显著的性能提升，例如在X数据集上，Few-Shot GR的Recall@10指标提升了X%。这表明Few-Shot GR能够有效地利用少量样本进行索引，并实现高效的检索。

🎯 应用场景

Few-Shot GR可应用于各种信息检索场景，尤其适用于文档集合动态变化、训练资源有限的场景。例如，可以应用于实时新闻检索、在线论坛搜索、企业知识库检索等领域。该方法能够降低检索系统的部署和维护成本，提高检索效率和准确性，具有广泛的应用前景。

📄 摘要（原文）

Existing generative retrieval (GR) methods rely on training-based indexing, which fine-tunes a model to memorise associations between queries and the document identifiers (docids) of relevant documents. Training-based indexing suffers from high training costs, under-utilisation of pre-trained knowledge in large language models (LLMs), and limited adaptability to dynamic document corpora. To address the issues, we propose a few-shot indexing-based GR framework (Few-Shot GR). It has a few-shot indexing process without any training, where we prompt an LLM to generate docids for all documents in a corpus, ultimately creating a docid bank for the entire corpus. During retrieval, we feed a query to the same LLM and constrain it to generate a docid within the docid bank created during indexing, and then map the generated docid back to its corresponding document. Moreover, we devise few-shot indexing with one-to-many mapping to further enhance Few-Shot GR. Experiments show that Few-Shot GR achieves superior performance to state-of-the-art GR methods requiring heavy training.

Generative Retrieval with Few-shot Indexing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理