IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

📄 arXiv: 2503.04644v1 📥 PDF

作者: Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao

分类: cs.CL, cs.IR

发布日期: 2025-03-06

备注: NAACL 2025 Main


💡 一句话要点

提出IFIR:一个综合性的专家领域信息检索指令跟随能力评测基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 指令跟随 专家领域 基准评测 大型语言模型

📋 核心要点

  1. 现有信息检索模型在处理专家领域复杂指令时表现不足,难以满足实际应用需求。
  2. IFIR基准通过构建高质量、多领域的指令跟随检索数据集,为模型评估提供标准。
  3. 实验结果揭示了现有模型在指令跟随方面的局限性,为未来研究指明方向。

📝 摘要(中文)

本文提出了IFIR,首个用于评估专家领域信息检索中指令跟随能力的综合性基准。IFIR包含2426个高质量样本,涵盖金融、法律、医疗保健和科学文献四个专业领域的八个子集。每个子集针对一个或多个特定领域的检索任务,复现了定制化指令至关重要的真实场景。IFIR通过纳入不同复杂程度的指令,能够对指令跟随检索能力进行详细分析。此外,本文还提出了一种基于LLM的新型评估方法,以提供更精确和可靠的模型指令跟随性能评估。通过对包括基于LLM的模型在内的15个前沿检索模型进行的大量实验,结果表明,当前模型在有效遵循复杂的、特定领域的指令方面面临重大挑战。我们进一步提供了深入的分析,以突出这些局限性,为指导检索器开发的未来发展提供有价值的见解。

🔬 方法详解

问题定义:论文旨在解决现有信息检索模型在专家领域,特别是金融、法律、医疗保健和科学文献等领域,难以有效遵循复杂指令的问题。现有方法通常无法很好地理解和执行领域相关的细粒度指令,导致检索结果不准确或不相关。这限制了它们在实际专业场景中的应用。

核心思路:论文的核心思路是构建一个高质量、多样化的指令跟随信息检索基准(IFIR),该基准包含不同复杂程度的指令和多个专业领域的数据。通过在该基准上评估现有模型,可以系统地分析它们在指令跟随方面的能力,并为未来的模型改进提供指导。

技术框架:IFIR基准主要包含以下几个部分:1) 数据收集与标注:从四个专业领域收集数据,并设计领域相关的检索任务。2) 指令构建:为每个检索任务构建不同复杂程度的指令,以测试模型的指令理解能力。3) 模型评估:使用LLM-based的评估方法,对现有检索模型在IFIR基准上的性能进行评估。4) 结果分析:对实验结果进行深入分析,找出模型在指令跟随方面的不足之处。

关键创新:论文的关键创新在于:1) 提出了首个针对专家领域指令跟随信息检索的综合性基准IFIR。2) 设计了不同复杂程度的指令,能够更全面地评估模型的指令理解能力。3) 提出了一种基于LLM的新型评估方法,能够更精确地评估模型的指令跟随性能。

关键设计:IFIR基准包含2426个高质量样本,涵盖金融、法律、医疗保健和科学文献四个专业领域的八个子集。指令的复杂程度分为多个等级,例如简单指令、复杂指令和多步指令。LLM-based的评估方法使用预训练的语言模型来判断模型生成的检索结果是否符合指令的要求。具体的参数设置和损失函数等技术细节在论文中未详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在IFIR基准上,对15个前沿检索模型进行了广泛的实验,包括基于LLM的模型。实验结果表明,现有模型在有效遵循复杂的、特定领域的指令方面面临重大挑战。例如,在某些子集上,模型的性能与人类水平存在显著差距。这些结果突出了现有模型在指令跟随方面的局限性,为未来的研究提供了明确的方向。

🎯 应用场景

该研究成果可应用于智能金融、法律咨询、医疗诊断辅助、科研文献检索等领域。通过提升信息检索模型对复杂指令的理解和执行能力,可以为专业人士提供更精准、高效的信息服务,辅助决策,提高工作效率。未来,该研究有望推动领域知识图谱、智能问答系统等技术的发展。

📄 摘要(原文)

We introduce IFIR, the first comprehensive benchmark designed to evaluate instruction-following information retrieval (IR) in expert domains. IFIR includes 2,426 high-quality examples and covers eight subsets across four specialized domains: finance, law, healthcare, and science literature. Each subset addresses one or more domain-specific retrieval tasks, replicating real-world scenarios where customized instructions are critical. IFIR enables a detailed analysis of instruction-following retrieval capabilities by incorporating instructions at different levels of complexity. We also propose a novel LLM-based evaluation method to provide a more precise and reliable assessment of model performance in following instructions. Through extensive experiments on 15 frontier retrieval models, including those based on LLMs, our results reveal that current models face significant challenges in effectively following complex, domain-specific instructions. We further provide in-depth analyses to highlight these limitations, offering valuable insights to guide future advancements in retriever development.