Towards Better Instruction Following Retrieval Models

📄 arXiv: 2505.21439v1 📥 PDF

作者: Yuchen Zhuang, Aaron Trinh, Rushi Qiang, Haotian Sun, Chao Zhang, Hanjun Dai, Bo Dai

分类: cs.CL, cs.IR

发布日期: 2025-05-27

备注: Retrieval Models, Embedding, Retrieval with Instructions


💡 一句话要点

提出InF-IR数据集和InF-Embed模型,提升指令跟随信息检索能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 指令跟随 对比学习 难负例挖掘 嵌入模型

📋 核心要点

  1. 现有信息检索模型难以理解和执行用户指令,导致检索结果与用户意图不符。
  2. 提出InF-IR数据集,包含高质量的指令、查询和段落三元组,并设计难负例生成方法。
  3. 训练InF-Embed模型,通过对比学习和指令-查询注意力机制,提升指令跟随检索性能。

📝 摘要(中文)

现代信息检索(IR)模型仅在标准的<查询, 段落>对上训练,难以有效解释和遵循明确的用户指令。本文提出了InF-IR,一个大规模、高质量的训练语料库,专门用于增强指令跟随信息检索中的检索模型。InF-IR将传统的训练对扩展为超过38,000个表达性的<指令, 查询, 段落>三元组作为正样本。特别地,对于每个正三元组,我们通过污染指令和查询来生成两个额外的难负例,然后通过高级推理模型(o3-mini)严格验证,以确保语义合理性,同时保持指令的不正确性。与主要支持计算密集型重排序任务的现有语料库不同,InF-IR中高度对比的正负三元组进一步实现了对较小编码器模型的有效表征学习,从而促进了基于嵌入的直接检索。使用该语料库,我们训练了InF-Embed,一个指令感知的嵌入模型,通过对比学习和指令-查询注意力机制进行优化,以使检索结果与用户意图精确对齐。在五个基于指令的检索基准上的大量实验表明,InF-Embed在p-MRR方面显著超越了竞争基线8.1%,衡量了指令跟随能力。

🔬 方法详解

问题定义:现有信息检索模型主要基于<查询, 段落>对进行训练,缺乏对用户指令的理解能力,导致检索结果难以准确满足用户的意图。现有方法在处理指令跟随检索任务时,通常需要计算密集型的重排序,效率较低。

核心思路:本文的核心思路是构建一个高质量的指令跟随检索数据集InF-IR,并在此基础上训练一个指令感知的嵌入模型InF-Embed。通过InF-IR数据集中的指令、查询和段落三元组,以及精心设计的难负例,模型能够学习到指令与查询之间的关联,从而更好地理解用户意图。

技术框架:整体框架包含两个主要部分:InF-IR数据集构建和InF-Embed模型训练。InF-IR数据集构建包括正例构建和难负例生成。正例是<指令, 查询, 段落>三元组,难负例通过污染指令和查询生成。InF-Embed模型采用编码器结构,通过对比学习和指令-查询注意力机制进行训练。

关键创新:InF-IR数据集的构建和难负例生成策略是关键创新点。通过污染指令和查询生成难负例,并使用高级推理模型进行验证,保证了难负例的语义合理性和指令不正确性。InF-Embed模型通过指令-查询注意力机制,更好地捕捉指令与查询之间的关联。

关键设计:InF-IR数据集包含超过38,000个<指令, 查询, 段落>三元组。难负例生成过程中,使用o3-mini模型进行验证。InF-Embed模型采用对比学习损失函数,并使用指令-查询注意力机制来增强指令感知能力。具体的网络结构和参数设置在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,InF-Embed模型在五个指令跟随检索基准上显著超越了竞争基线,在p-MRR指标上提升了8.1%。这表明InF-IR数据集和InF-Embed模型能够有效提升指令跟随信息检索能力,更好地满足用户意图。

🎯 应用场景

该研究成果可应用于智能搜索引擎、问答系统、推荐系统等领域,提升用户体验。通过理解用户指令,系统能够更准确地返回用户所需的信息,提高信息检索的效率和准确性。未来可进一步扩展到多模态指令跟随检索,例如图像、视频等。

📄 摘要(原文)

Modern information retrieval (IR) models, trained exclusively on standard pairs, struggle to effectively interpret and follow explicit user instructions. We introduce InF-IR, a large-scale, high-quality training corpus tailored for enhancing retrieval models in Instruction-Following IR. InF-IR expands traditional training pairs into over 38,000 expressive triplets as positive samples. In particular, for each positive triplet, we generate two additional hard negative examples by poisoning both instructions and queries, then rigorously validated by an advanced reasoning model (o3-mini) to ensure semantic plausibility while maintaining instructional incorrectness. Unlike existing corpora that primarily support computationally intensive reranking tasks for decoder-only language models, the highly contrastive positive-negative triplets in InF-IR further enable efficient representation learning for smaller encoder-only models, facilitating direct embedding-based retrieval. Using this corpus, we train InF-Embed, an instruction-aware Embedding model optimized through contrastive learning and instruction-query attention mechanisms to align retrieval outcomes precisely with user intents. Extensive experiments across five instruction-based retrieval benchmarks demonstrate that InF-Embed significantly surpasses competitive baselines by 8.1% in p-MRR, measuring the instruction-following capabilities.