Over-Searching in Search-Augmented Large Language Models
作者: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
分类: cs.LG, cs.AI
发布日期: 2026-01-09
备注: Accepted to EACL 2026 Main Conference
💡 一句话要点
研究发现搜索增强大语言模型存在过度搜索问题,并提出评估指标与缓解方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 搜索增强LLM 过度搜索 知识密集型任务 信息检索 性能评估 TPC指标 查询优化 检索优化
📋 核心要点
- 现有搜索增强LLM在知识密集型任务中存在过度搜索问题,导致计算资源浪费和引入无关信息。
- 论文核心在于系统性地评估和量化过度搜索现象,并探索在查询和检索层面上的缓解策略。
- 实验表明,过度搜索受查询类型、模型复杂度和检索质量影响,并提出了TPC指标来衡量性能-成本权衡。
📝 摘要(中文)
搜索增强的大语言模型(LLMs)通过整合外部检索在知识密集型任务中表现出色。然而,它们经常过度搜索——不必要地调用搜索工具,即使这样做并不能提高响应质量,这会导致计算效率低下,并因包含不相关的上下文而产生幻觉。本文对多种维度(包括查询类型、模型类别、检索条件和多轮对话)的过度搜索进行了系统评估。研究结果表明:(i)搜索通常可以提高可回答查询的答案准确性,但会损害不可回答查询的拒绝回答能力;(ii)过度搜索在复杂推理模型和深度研究系统中更为明显,并且会被噪声检索加剧,并在多轮对话中累积;(iii)检索证据的组成至关重要,因为负面证据的存在可以改善拒绝回答能力。为了量化过度搜索,我们引入了Tokens Per Correctness(TPC),这是一个评估搜索增强LLM性能-成本权衡的指标。最后,我们研究了查询和检索层面的缓解方法,并发布了OverSearchQA,以促进对高效搜索增强LLM的持续研究。
🔬 方法详解
问题定义:论文关注搜索增强大语言模型(LLMs)在知识密集型任务中过度使用搜索工具的问题。现有方法在决定何时以及如何使用搜索时缺乏效率,即使搜索结果对最终答案没有帮助甚至有害,也会触发搜索,导致计算资源浪费,并可能引入噪声信息,降低回答质量。
核心思路:论文的核心思路是系统性地分析和量化过度搜索现象,并探索在查询和检索两个层面上缓解过度搜索的策略。通过深入理解过度搜索的成因和影响因素,可以设计更智能的搜索触发机制,并优化检索结果的质量,从而提高搜索增强LLMs的效率和准确性。
技术框架:论文的研究框架主要包括以下几个阶段:1) 系统评估:设计实验,从查询类型、模型类别、检索条件和多轮对话等多个维度评估过度搜索现象。2) 指标量化:提出Tokens Per Correctness (TPC) 指标,用于衡量搜索增强LLM的性能-成本权衡。3) 缓解策略研究:探索在查询层面(例如,更精确的查询生成)和检索层面(例如,过滤噪声检索结果)的缓解方法。4) 数据集发布:发布OverSearchQA数据集,用于促进对高效搜索增强LLMs的持续研究。
关键创新:论文的关键创新在于:1) 系统性的过度搜索评估:首次对搜索增强LLMs的过度搜索问题进行了全面的分析和评估,揭示了其在不同场景下的表现。2) TPC指标:提出了TPC指标,为量化搜索增强LLMs的性能-成本权衡提供了一种新的方法。3) OverSearchQA数据集:发布了一个新的数据集,为研究人员提供了一个评估和改进搜索增强LLMs的平台。
关键设计:论文的关键设计包括:1) 查询类型划分:将查询分为可回答和不可回答两类,分别评估搜索对答案准确性和拒绝回答能力的影响。2) 检索条件控制:通过引入噪声检索结果,研究检索质量对过度搜索的影响。3) TPC指标计算:TPC指标的计算方式为:生成正确答案所需的token数量除以答案的正确性得分。4) 缓解策略设计:在查询层面,探索更精确的查询生成方法;在检索层面,探索过滤噪声检索结果的方法。
📊 实验亮点
研究发现,搜索通常能提高可回答查询的准确性,但会损害不可回答查询的拒绝回答能力。过度搜索在复杂推理模型中更明显,且会被噪声检索加剧。负面证据的存在可以改善拒绝回答能力。提出的TPC指标为评估搜索增强LLM的性能-成本权衡提供了一种有效方法。
🎯 应用场景
该研究成果可应用于各种需要知识检索的智能问答系统、对话机器人和信息检索应用中。通过减少不必要的搜索,可以显著提高系统的效率和响应速度,降低计算成本,并减少因引入无关信息而导致的错误。未来的研究可以进一步探索更智能的搜索触发机制和更有效的检索结果过滤方法。
📄 摘要(原文)
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.