Overview of the TREC 2023 deep learning track

📄 arXiv: 2507.08890v1 📥 PDF

作者: Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Hossein A. Rahmani, Daniel Campos, Jimmy Lin, Ellen M. Voorhees, Ian Soboroff

分类: cs.IR, cs.AI, cs.CL

发布日期: 2025-07-10

备注: arXiv admin note: substantial text overlap with arXiv:2507.08191


💡 一句话要点

TREC 2023深度学习赛道:基于LLM Prompting的方法超越传统神经网络排序

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 深度学习 大型语言模型 Prompting 排序模型 TREC MS MARCO

📋 核心要点

  1. 传统排序模型在处理复杂查询和捕捉语义信息方面存在局限性,需要更强大的模型。
  2. 利用大型语言模型(LLM)的Prompting能力,生成更有效的排序模型,提升检索性能。
  3. 实验表明,基于LLM Prompting的方法在TREC 2023深度学习赛道上超越了传统的nnlm方法,且合成查询评估结果与人工查询相似。

📝 摘要(中文)

本文概述了TREC 2023深度学习赛道。与往年一样,我们利用MS MARCO数据集,该数据集为段落和文档排序任务提供了数十万个人工标注的训练标签。我们基本重复了去年的设计,以获得另一个匹配的测试集,该测试集基于更大、更干净、偏差更小的v2段落和文档集,其中段落排序是主要任务,文档排序是次要任务(使用从段落推断的标签)。与前三年的测试查询不同,我们像去年一样,从MS MARCO查询中进行采样,这些查询完全被保留,未在语料库构建中使用。这种方法产生了一个更困难的测试,具有更大的改进空间。除了来自MS MARCO的常用(人工)查询外,今年我们使用微调的T5模型和GPT-4提示生成了合成查询。今年的主要结果是,以某种方式使用大型语言模型(LLM)提示的运行优于使用“nnlm”方法的运行,后者是前四年中的最佳方法。由于这是该赛道的最后一年,因此基于提示的排序的未来迭代可以在其他赛道中进行。人工相关性评估适用于所有查询类型,而不仅仅是人工MS MARCO查询。使用合成查询进行的评估给出了与人工查询相似的结果,系统排序一致性为τ=0.8487。但是,需要人工干预才能选择可用的合成查询子集。我们没有看到明显的偏差证据,即在使用合成GPT-4查询进行评估时,使用GPT-4的运行受到青睐,或者在使用合成T5查询进行评估时,使用T5的运行受到青睐。

🔬 方法详解

问题定义:论文旨在解决信息检索中的排序问题,特别是如何利用更先进的模型来提升检索结果的准确性和相关性。现有方法,如基于神经网络的排序模型(例如nnlm),在捕捉复杂语义信息和处理多样化查询方面存在局限性,难以充分利用大规模标注数据。

核心思路:论文的核心思路是利用大型语言模型(LLM)的Prompting能力来改进排序模型。通过设计合适的Prompt,引导LLM理解查询意图并生成更准确的排序结果。这种方法旨在克服传统排序模型在语义理解和泛化能力方面的不足。

技术框架:整体框架包括以下几个主要阶段:1) 数据准备:使用MS MARCO数据集,包括人工标注的查询和文档对。2) 查询生成:除了人工查询外,还使用微调的T5模型和GPT-4生成合成查询。3) 模型训练:利用LLM和设计的Prompt进行模型训练,目标是学习查询和文档之间的相关性。4) 排序评估:使用人工查询和合成查询评估模型的排序性能。

关键创新:最重要的技术创新点在于将LLM的Prompting能力应用于排序任务。与传统的神经网络排序模型相比,LLM具有更强的语义理解和生成能力,能够更好地捕捉查询意图和文档内容之间的关系。此外,使用合成查询进行评估也是一个创新点,可以更全面地评估模型的性能。

关键设计:关键设计包括:1) Prompt设计:设计合适的Prompt,引导LLM理解查询意图并生成排序结果。2) 模型选择:选择合适的LLM,例如T5和GPT-4,并进行微调。3) 评估指标:使用标准的信息检索评估指标,例如NDCG和MAP,以及系统排序一致性指标τ。4) 合成查询生成:使用微调的T5模型和GPT-4生成合成查询,并进行人工筛选。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于LLM Prompting的方法在TREC 2023深度学习赛道上超越了传统的nnlm方法,成为新的最佳方法。使用合成查询进行的评估给出了与人工查询相似的结果,系统排序一致性为τ=0.8487。这表明LLM Prompting方法具有良好的泛化能力和鲁棒性。

🎯 应用场景

该研究成果可应用于搜索引擎、问答系统、推荐系统等领域,提升信息检索的准确性和用户体验。通过利用LLM的强大能力,可以更好地理解用户意图,提供更相关的搜索结果。未来,该方法有望在智能客服、知识图谱等领域发挥重要作用。

📄 摘要(原文)

This is the fifth year of the TREC Deep Learning track. As in previous years, we leverage the MS MARCO datasets that made hundreds of thousands of human-annotated training labels available for both passage and document ranking tasks. We mostly repeated last year's design, to get another matching test set, based on the larger, cleaner, less-biased v2 passage and document set, with passage ranking as primary and document ranking as a secondary task (using labels inferred from passage). As we did last year, we sample from MS MARCO queries that were completely held out, unused in corpus construction, unlike the test queries in the first three years. This approach yields a more difficult test with more headroom for improvement. Alongside the usual MS MARCO (human) queries from MS MARCO, this year we generated synthetic queries using a fine-tuned T5 model and using a GPT-4 prompt. The new headline result this year is that runs using Large Language Model (LLM) prompting in some way outperformed runs that use the "nnlm" approach, which was the best approach in the previous four years. Since this is the last year of the track, future iterations of prompt-based ranking can happen in other tracks. Human relevance assessments were applied to all query types, not just human MS MARCO queries. Evaluation using synthetic queries gave similar results to human queries, with system ordering agreement of $τ=0.8487$. However, human effort was needed to select a subset of the synthetic queries that were usable. We did not see clear evidence of bias, where runs using GPT-4 were favored when evaluated using synthetic GPT-4 queries, or where runs using T5 were favored when evaluated on synthetic T5 queries.