A Reproducibility Study of LLM-Based Query Reformulation

📄 arXiv: 2604.27421v1 📥 PDF

作者: Amin Bigdeli, Radin Hamidi Rad, Hai Son Le, Mert Incesu, Negar Arabzadeh, Charles L. A. Clarke, Ebrahim Bagheri

分类: cs.IR, cs.CL

发布日期: 2026-04-30

DOI: 10.1145/3805712.3808560


💡 一句话要点

对基于LLM的查询重构方法进行可复现性研究,揭示其在不同检索范式下的性能差异。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 查询重构 大型语言模型 信息检索 可复现性研究 检索范式

📋 核心要点

  1. 现有基于LLM的查询重构研究结果异构,难以判断其可复现性和对特定实现选择的依赖性。
  2. 论文对多种LLM查询重构方法在统一框架下进行评估,分析其在不同检索范式下的表现。
  3. 实验表明,重构增益受检索范式影响大,词汇检索的改进难以推广到神经检索,且更大LLM不一定更好。

📝 摘要(中文)

大型语言模型(LLM)目前被广泛应用于信息检索中的查询重构和扩展,许多研究报告了显著的有效性提升。然而,这些结果通常在异构的实验条件下获得,难以评估哪些发现是可复现的,哪些依赖于特定的实现选择。本文对十种具有代表性的基于LLM的查询重构方法进行了系统的可复现性和比较研究,实验框架统一且严格控制。我们评估了两种架构的LLM家族(两种参数规模)、三种检索范式(词汇检索、学习型稀疏检索和稠密检索)以及涵盖TREC Deep Learning和BEIR的九个基准数据集。结果表明,重构带来的增益强烈依赖于检索范式,在词汇检索下观察到的改进并不能一致地转移到神经检索器上,并且更大的LLM并不总能产生更好的下游性能。这些发现阐明了先前工作中报告的增益的稳定性和局限性。为了实现透明的复制和持续的比较,我们通过QueryGym(一个带有公共排行榜的开源重构工具包)发布了所有提示、配置、评估脚本和运行文件。

🔬 方法详解

问题定义:论文旨在解决现有基于LLM的查询重构研究中实验条件不统一,导致结果难以复现和比较的问题。现有方法在异构环境下评估,无法确定性能提升的真正来源,也难以判断哪些改进是通用的,哪些是特定于某种设置的。

核心思路:论文的核心思路是在一个严格控制的实验框架下,对多种具有代表性的LLM查询重构方法进行系统的评估和比较。通过统一的实验设置,消除混淆因素,从而更准确地评估各种方法的性能,并揭示其在不同检索范式下的表现差异。

技术框架:论文构建了一个统一的实验框架,包括:1) 选择具有代表性的LLM查询重构方法;2) 选择两种架构的LLM家族(两种参数规模);3) 选择三种检索范式(词汇检索、学习型稀疏检索和稠密检索);4) 选择涵盖TREC Deep Learning和BEIR的九个基准数据集。然后,在统一的实验设置下,对所有方法进行评估和比较。

关键创新:论文的关键创新在于其系统性的可复现性研究方法。通过严格控制实验条件,论文能够更准确地评估各种LLM查询重构方法的性能,并揭示其在不同检索范式下的表现差异。此外,论文还开源了QueryGym工具包,为后续研究提供了便利。

关键设计:论文的关键设计包括:1) 选择具有代表性的LLM查询重构方法,确保研究结果的通用性;2) 选择多种检索范式,以评估重构方法在不同检索场景下的表现;3) 使用多个基准数据集,以提高研究结果的可靠性;4) 开源QueryGym工具包,方便后续研究者复现和扩展研究结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM查询重构的增益强烈依赖于检索范式。在词汇检索下观察到的改进并不能一致地转移到神经检索器上。此外,更大的LLM并不总能产生更好的下游性能。例如,在某些数据集上,较小的LLM模型表现甚至优于较大的模型。

🎯 应用场景

该研究成果可应用于信息检索系统的优化设计,帮助研究人员和工程师选择合适的查询重构方法,并根据具体的检索范式进行调整。此外,QueryGym工具包的开源将促进该领域的研究进展,加速新型查询重构方法的开发和评估。

📄 摘要(原文)

Large Language Models (LLMs) are now widely used for query reformulation and expansion in Information Retrieval, with many studies reporting substantial effectiveness gains. However, these results are typically obtained under heterogeneous experimental conditions, making it difficult to assess which findings are reproducible and which depend on specific implementation choices. In this work, we present a systematic reproducibility and comparative study of ten representative LLM-based query reformulation methods under a unified and strictly controlled experimental framework. We evaluate methods across two architectural LLM families at two parameter scales, three retrieval paradigms (lexical, learned sparse, and dense), and nine benchmark datasets spanning TREC Deep Learning and BEIR. Our results show that reformulation gains are strongly conditioned on the retrieval paradigm, that improvements observed under lexical retrieval do not consistently transfer to neural retrievers, and that larger LLMs do not uniformly yield better downstream performance. These findings clarify the stability and limits of reported gains in prior work. To enable transparent replication and ongoing comparison, we release all prompts, configurations, evaluation scripts, and run files through QueryGym, an open-source reformulation toolkit with a public leaderboard.\footnote{https://leaderboard.querygym.com}