Reassessing Large Language Model Boolean Query Generation for Systematic Reviews
作者: Shuai Wang, Harrisen Scells, Bevan Koopman, Guido Zuccon
分类: cs.IR, cs.CL
发布日期: 2025-05-12 (更新: 2025-06-02)
备注: Accepted in SIGIR-2025
💡 一句话要点
重新评估大型语言模型在系统评价中生成布尔查询的能力,强调提示设计和模型选择的关键作用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 布尔查询生成 系统评价 文献检索 提示工程
📋 核心要点
- 现有手动构建系统评价的布尔查询耗时且困难,需要探索LLM辅助方法。
- 论文通过系统地复现并改进前人研究,分析了模型选择和提示设计对查询效果的影响。
- 实验结果表明,提示设计和模型选择是影响LLM生成布尔查询效果的关键因素,并强调了优化必要性。
📝 摘要(中文)
系统评价是针对高度聚焦的研究问题进行的综合性文献综述,代表了医学领域最高级别的证据。该过程的关键步骤是构建复杂的布尔查询以检索相关文献。鉴于手动构建这些查询的难度,最近的研究探索了使用大型语言模型(LLMs)来辅助查询构建。早期的研究,如Wang等人和Staudinger等人,分别评估了ChatGPT和其他LLMs。然而,后者忽略了原始工作中的几个关键方面,包括(i)生成查询的验证,(ii)输出格式约束,以及(iii)链式思考(引导式)提示的示例选择。因此,其发现与原始研究存在显著差异。本文系统地重现了这两项研究,同时解决了这些被忽略的因素。结果表明,查询效果在不同模型和提示设计之间差异显著,引导式查询构建受益于精心选择的种子研究。总体而言,提示设计和模型选择是成功查询构建的关键驱动因素。我们的发现更清晰地理解了LLMs在布尔查询生成中的潜力,并强调了模型和提示特定优化的重要性。系统评价的复杂性增加了开发和重现方法的挑战,但也突出了该领域可重复性研究的重要性。
🔬 方法详解
问题定义:论文旨在解决系统评价中手动构建布尔查询耗时且容易出错的问题。现有方法,特别是Staudinger等人的研究,在复现Wang等人的工作时,忽略了关键因素,导致结论差异较大,无法准确评估LLM在布尔查询生成中的潜力。
核心思路:论文的核心思路是通过系统地复现和改进现有研究,重点关注被忽略的因素,例如查询验证、输出格式约束和链式思考提示的示例选择,从而更准确地评估不同LLM和提示设计在布尔查询生成中的效果。通过控制这些变量,可以更清晰地了解LLM的优势和局限性。
技术框架:论文采用实验研究的方法,主要包含以下几个阶段:1) 重现Wang等人的原始实验,使用ChatGPT生成布尔查询;2) 重现Staudinger等人的实验,并纠正其忽略的关键因素;3) 系统地评估不同LLM(如ChatGPT等)和提示设计(包括引导式提示和非引导式提示)对查询效果的影响;4) 分析实验结果,确定影响查询效果的关键因素。
关键创新:论文的关键创新在于对现有研究的系统性复现和改进,特别是强调了提示设计和模型选择在LLM生成布尔查询中的重要性。通过纠正先前研究中的错误,论文提供了更准确和全面的评估结果,揭示了LLM在布尔查询生成中的真正潜力。
关键设计:论文的关键设计包括:1) 严格遵循原始研究的输出格式约束,确保生成的查询符合系统评价的要求;2) 精心选择链式思考提示的示例,以提高引导式提示的效果;3) 使用标准化的评估指标(如查全率和查准率)来评估生成查询的质量;4) 对不同模型和提示设计进行充分的实验比较,以确定最佳配置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM生成布尔查询的效果受模型选择和提示设计影响显著。引导式查询构建受益于精心选择的种子研究。通过纠正先前研究的偏差,论文更准确地评估了LLM在布尔查询生成中的潜力,为未来的研究提供了更可靠的基准。
🎯 应用场景
该研究成果可应用于医学、社会科学等领域,辅助研究人员进行系统评价和文献综述,提高文献检索效率和准确性。通过优化提示设计和模型选择,可以更有效地利用LLM生成高质量的布尔查询,从而加速科研进程。
📄 摘要(原文)
Systematic reviews are comprehensive literature reviews that address highly focused research questions and represent the highest form of evidence in medicine. A critical step in this process is the development of complex Boolean queries to retrieve relevant literature. Given the difficulty of manually constructing these queries, recent efforts have explored Large Language Models (LLMs) to assist in their formulation. One of the first studies,Wang et al., investigated ChatGPT for this task, followed by Staudinger et al., which evaluated multiple LLMs in a reproducibility study. However, the latter overlooked several key aspects of the original work, including (i) validation of generated queries, (ii) output formatting constraints, and (iii) selection of examples for chain-of-thought (Guided) prompting. As a result, its findings diverged significantly from the original study. In this work, we systematically reproduce both studies while addressing these overlooked factors. Our results show that query effectiveness varies significantly across models and prompt designs, with guided query formulation benefiting from well-chosen seed studies. Overall, prompt design and model selection are key drivers of successful query formulation. Our findings provide a clearer understanding of LLMs' potential in Boolean query generation and highlight the importance of model- and prompt-specific optimisations. The complex nature of systematic reviews adds to challenges in both developing and reproducing methods but also highlights the importance of reproducibility studies in this domain.