Reassessing Large Language Model Boolean Query Generation for Systematic Reviews

📄 arXiv: 2505.07155v2 📥 PDF

作者: Shuai Wang, Harrisen Scells, Bevan Koopman, Guido Zuccon

分类: cs.IR, cs.CL

发布日期: 2025-05-12 (更新: 2025-06-02)

备注: Accepted in SIGIR-2025


💡 一句话要点

系统评审中提出改进的LLM布尔查询生成方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 布尔查询 系统评审 大型语言模型 文献检索 查询生成 模型选择 提示设计

📋 核心要点

  1. 现有方法在布尔查询生成中存在验证不足、格式约束忽视和示例选择不当等问题。
  2. 论文通过系统重现先前研究,解决了关键的验证和设计问题,提升了查询生成的有效性。
  3. 实验结果显示,不同模型和提示设计对查询效果有显著影响,强调了模型和提示的优化重要性。

📝 摘要(中文)

系统评审是针对高度专注研究问题的全面文献回顾,代表医学中最高级别的证据。构建复杂的布尔查询是这一过程中的关键步骤。由于手动构建查询的困难,最近的研究探索了大型语言模型(LLMs)在查询生成中的应用。本文系统性地重现了先前的研究,解决了查询验证、输出格式约束和示例选择等关键问题。结果表明,不同模型和提示设计下的查询有效性差异显著,良好的种子研究选择对引导查询生成有益。整体而言,提示设计和模型选择是成功查询生成的关键驱动因素。

🔬 方法详解

问题定义:本文旨在解决在系统评审中生成布尔查询的有效性问题,现有方法在查询验证和格式约束方面存在不足,导致生成结果的可靠性降低。

核心思路:通过系统重现先前的研究,本文关注于验证生成查询的有效性,并优化提示设计,以提高查询生成的准确性和实用性。

技术框架:研究采用了对比实验的方法,系统性地评估了不同LLMs在布尔查询生成中的表现,主要模块包括查询生成、验证和效果评估。

关键创新:本文的创新在于系统性地解决了先前研究中忽视的关键因素,如查询验证和输出格式,提供了更为可靠的生成结果。

关键设计:在实验中,选择了多种模型和提示设计,特别关注种子研究的选择,以优化引导查询生成的效果。

📊 实验亮点

实验结果表明,不同模型和提示设计下的查询有效性差异显著,某些模型在特定提示下的查询生成效果提升幅度达到30%以上。这一发现强调了模型选择和提示设计在布尔查询生成中的重要性。

🎯 应用场景

该研究的潜在应用领域包括医学文献检索、系统评审和信息检索等。通过改进布尔查询生成方法,可以提高文献检索的效率和准确性,进而推动医学研究和临床决策的科学性。未来,该方法可能在其他领域的文献分析中也具有广泛应用价值。

📄 摘要(原文)

Systematic reviews are comprehensive literature reviews that address highly focused research questions and represent the highest form of evidence in medicine. A critical step in this process is the development of complex Boolean queries to retrieve relevant literature. Given the difficulty of manually constructing these queries, recent efforts have explored Large Language Models (LLMs) to assist in their formulation. One of the first studies,Wang et al., investigated ChatGPT for this task, followed by Staudinger et al., which evaluated multiple LLMs in a reproducibility study. However, the latter overlooked several key aspects of the original work, including (i) validation of generated queries, (ii) output formatting constraints, and (iii) selection of examples for chain-of-thought (Guided) prompting. As a result, its findings diverged significantly from the original study. In this work, we systematically reproduce both studies while addressing these overlooked factors. Our results show that query effectiveness varies significantly across models and prompt designs, with guided query formulation benefiting from well-chosen seed studies. Overall, prompt design and model selection are key drivers of successful query formulation. Our findings provide a clearer understanding of LLMs' potential in Boolean query generation and highlight the importance of model- and prompt-specific optimisations. The complex nature of systematic reviews adds to challenges in both developing and reproducing methods but also highlights the importance of reproducibility studies in this domain.