Hypothetical Documents or Knowledge Leakage? Rethinking LLM-based Query Expansion

📄 arXiv: 2504.14175v2 📥 PDF

作者: Yejun Yoon, Jaeyoon Jung, Seunghyun Yoon, Kunwoo Park

分类: cs.CL, cs.IR

发布日期: 2025-04-19 (更新: 2025-06-04)

备注: ACL 2025 (Findings)


💡 一句话要点

质疑LLM查询扩展:基准测试中知识泄露可能高估性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 查询扩展 知识泄露 事实核查 零样本检索

📋 核心要点

  1. 现有基于LLM的查询扩展方法在零样本检索中表现良好,但其性能提升的根本原因尚不明确。
  2. 该论文通过分析LLM生成的假设文档,探究基准测试中知识泄露对性能的影响。
  3. 实验表明,性能提升与生成的文档包含黄金证据所蕴含的信息相关,暗示知识泄露可能导致性能高估。

📝 摘要(中文)

基于大型语言模型(LLM)的查询扩展方法在零样本检索任务中表现出有效性。这些方法假设LLM可以生成假设文档,当这些文档被纳入查询向量时,能够增强对真实证据的检索。然而,我们通过调查基准测试中的知识泄露是否导致了观察到的性能提升,来挑战这一假设。我们以事实核查为测试平台,分析生成的文档是否包含由真实证据所蕴含的信息,并评估它们对性能的影响。我们的研究结果表明,平均而言,对于那些生成的文档包含黄金证据所蕴含的句子的声明,性能改进始终如一地发生。这表明知识泄露可能存在于事实核查基准中,从而可能夸大基于LLM的查询扩展方法的感知性能。

🔬 方法详解

问题定义:论文旨在解决基于LLM的查询扩展方法在事实核查等任务中性能提升的真实性问题。现有方法依赖于LLM生成假设文档来增强查询,但忽略了基准测试中可能存在的知识泄露问题,即LLM可能已经预先学习了benchmark中的信息,导致性能提升并非完全来自查询扩展的有效性,而是LLM本身已经具备了相关知识。

核心思路:论文的核心思路是通过分析LLM生成的假设文档,判断其是否包含由黄金证据所蕴含的信息,从而评估知识泄露的程度。如果生成的文档包含了与黄金证据相关的信息,则表明LLM可能存在知识泄露,进而影响了查询扩展的性能评估。

技术框架:论文采用事实核查任务作为测试平台。首先,使用LLM生成与给定声明相关的假设文档。然后,分析生成的文档,判断其是否包含由黄金证据所蕴含的信息。最后,评估生成的文档对事实核查性能的影响,并分析性能提升与知识泄露之间的关系。

关键创新:论文的关键创新在于提出了一个评估LLM查询扩展方法中知识泄露程度的框架。该框架通过分析生成的假设文档,判断其是否包含由黄金证据所蕴含的信息,从而评估知识泄露对性能的影响。这为更准确地评估LLM查询扩展方法的性能提供了新的视角。

关键设计:论文的关键设计包括:1) 使用事实核查任务作为测试平台,因为该任务需要检索相关证据来验证声明的真实性;2) 设计了判断生成的文档是否包含由黄金证据所蕴含的信息的方法,例如使用文本蕴含模型;3) 分析性能提升与知识泄露之间的关系,例如通过比较在存在和不存在知识泄露的情况下,查询扩展方法的性能。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,对于那些生成的文档包含黄金证据所蕴含的句子的声明,性能改进始终如一地发生。这表明知识泄露可能存在于事实核查基准中,从而可能夸大基于LLM的查询扩展方法的感知性能。具体来说,论文发现性能提升与生成的文档包含黄金证据所蕴含的信息显著相关。

🎯 应用场景

该研究成果可应用于评估和改进基于LLM的查询扩展方法,尤其是在知识密集型任务中。通过识别和缓解知识泄露问题,可以更准确地评估这些方法的性能,并开发更有效的查询扩展技术。此外,该研究也对构建更可靠的基准测试数据集具有指导意义,避免数据集中的知识泄露问题。

📄 摘要(原文)

Query expansion methods powered by large language models (LLMs) have demonstrated effectiveness in zero-shot retrieval tasks. These methods assume that LLMs can generate hypothetical documents that, when incorporated into a query vector, enhance the retrieval of real evidence. However, we challenge this assumption by investigating whether knowledge leakage in benchmarks contributes to the observed performance gains. Using fact verification as a testbed, we analyze whether the generated documents contain information entailed by ground-truth evidence and assess their impact on performance. Our findings indicate that, on average, performance improvements consistently occurred for claims whose generated documents included sentences entailed by gold evidence. This suggests that knowledge leakage may be present in fact-verification benchmarks, potentially inflating the perceived performance of LLM-based query expansion methods.