AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning

📄 arXiv: 2512.16883v1 📥 PDF

作者: Tzu-Han Lin, Wei-Lin Chen, Chen-An Li, Hung-yi Lee, Yun-Nung Chen, Yu Meng

分类: cs.CL

发布日期: 2025-12-18

备注: Preprint. Code and artifacts will be uploaded to https://github.com/hank0316/AdaSearch


💡 一句话要点

提出AdaSearch,通过强化学习平衡大语言模型的参数知识与外部搜索

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 知识边界 外部搜索 决策透明性

📋 核心要点

  1. 现有搜索增强的大语言模型过度依赖搜索,引入成本和风险,且奖励工程复杂,信用分配模糊。
  2. AdaSearch通过两阶段强化学习框架,显式地分离问题解决和搜索决策,提升决策透明性。
  3. 实验表明,AdaSearch提高了知识边界意识,减少了不必要的搜索,同时保持了任务性能。

📝 摘要(中文)

本文提出了一种利用强化学习(RL)来构建搜索代理的方法,旨在平衡大语言模型(LLM)的参数知识与外部搜索引擎的使用。过度依赖搜索会引入不必要的成本,并暴露于噪声或恶意内容的风险,而仅依赖参数知识则可能导致幻觉。核心挑战在于开发能够自适应地平衡参数知识与外部搜索的代理,仅在必要时才调用搜索。现有方法通过围绕工具调用次数塑造奖励来缓解搜索过度使用,但这些惩罚需要大量的奖励工程,提供模糊的信用分配,并且可能被表面上减少调用的代理利用。此外,仅通过调用次数评估性能会混淆必要和不必要的搜索,从而模糊了对真正自适应行为的衡量。为了解决这些限制,我们首先通过基于F1的决策指标量化现有搜索代理的自我知识感知,揭示了诸如Search-R1之类的方法经常忽略现成的参数知识。受这些发现的启发,我们提出了AdaSearch,这是一个简单的两阶段、结果驱动的RL框架,它将问题解决与是否调用搜索的决策分离开来,并使该决策过程明确且可解释。这种透明度对于金融和医疗问答等高风险领域至关重要,但之前的研究方法在很大程度上忽略了这一点。跨多个模型系列和规模的实验表明,AdaSearch显着提高了知识边界意识,减少了不必要的搜索调用,保持了强大的任务性能,并提供了更透明、可解释的决策行为。

🔬 方法详解

问题定义:现有的大语言模型在利用外部搜索时,常常过度依赖搜索功能,导致不必要的计算成本和潜在的安全风险(例如,接触到恶意信息)。同时,现有方法在平衡模型自身知识和外部搜索时缺乏有效的机制,难以判断何时应该依赖自身知识,何时应该进行搜索。现有方法依赖复杂的奖励工程来减少搜索调用,但效果不佳,且缺乏透明度。

核心思路:AdaSearch的核心思路是将问题解决过程和搜索决策过程解耦。模型首先尝试仅使用自身参数知识解决问题,然后独立地决定是否需要进行外部搜索。这种解耦使得模型能够更清晰地评估自身知识的边界,并做出更明智的搜索决策。通过强化学习,模型可以学习到在不同情况下最优的搜索策略。

技术框架:AdaSearch是一个两阶段的强化学习框架: 1. 问题解决阶段:大语言模型首先尝试仅使用自身参数知识来回答问题。 2. 搜索决策阶段:一个独立的决策模块(例如,一个分类器)根据问题和模型的第一阶段输出,决定是否需要进行外部搜索。如果决定搜索,则利用搜索引擎获取相关信息,并结合搜索结果重新生成答案。

关键创新:AdaSearch的关键创新在于将问题解决和搜索决策解耦,并使用强化学习来优化搜索决策过程。这种方法使得模型能够更清晰地理解自身知识的局限性,并做出更明智的搜索决策。此外,AdaSearch的决策过程更加透明和可解释,这对于高风险应用场景至关重要。

关键设计:AdaSearch使用强化学习来训练搜索决策模块。奖励函数的设计旨在鼓励模型在能够仅使用自身知识解决问题时避免搜索,并在需要外部信息时进行搜索。具体的奖励函数可以包括: * 正确答案的奖励。 * 不必要搜索的惩罚。 * 必要搜索的奖励。 决策模块可以使用各种分类器或策略网络来实现,例如,可以使用一个简单的线性分类器或一个更复杂的Transformer模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AdaSearch在多个数据集上显著提高了知识边界意识,减少了不必要的搜索调用,同时保持了强大的任务性能。例如,在某些数据集上,AdaSearch可以将不必要的搜索调用减少高达30%,同时保持或略微提升答案的准确性。此外,AdaSearch的决策过程更加透明和可解释。

🎯 应用场景

AdaSearch适用于需要大语言模型进行知识密集型任务的场景,例如金融问答、医疗诊断、法律咨询等。该方法可以提高模型在这些领域的准确性和可靠性,并降低不必要的计算成本和安全风险。其透明的决策过程也使其在高风险领域更具应用价值。

📄 摘要(原文)

Equipping large language models (LLMs) with search engines via reinforcement learning (RL) has emerged as an effective approach for building search agents. However, overreliance on search introduces unnecessary cost and risks exposure to noisy or malicious content, while relying solely on parametric knowledge risks hallucination. The central challenge is to develop agents that adaptively balance parametric knowledge with external search, invoking search only when necessary. Prior work mitigates search overuse by shaping rewards around the number of tool calls. However, these penalties require substantial reward engineering, provide ambiguous credit assignment, and can be exploited by agents that superficially reduce calls. Moreover, evaluating performance solely through call counts conflates necessary and unnecessary search, obscuring the measurement of true adaptive behavior. To address these limitations, we first quantify the self-knowledge awareness of existing search agents via an F1-based decision metric, revealing that methods such as Search-R1 often overlook readily available parametric knowledge. Motivated by these findings, we propose AdaSearch, a simple two-stage, outcome-driven RL framework that disentangles problem solving from the decision of whether to invoke search, and makes this decision process explicit and interpretable. This transparency is crucial for high-stakes domains such as finance and medical question answering, yet is largely neglected by prior approaches. Experiments across multiple model families and sizes demonstrate that AdaSearch substantially improves knowledge-boundary awareness, reduces unnecessary search calls, preserves strong task performance, and offers more transparent, interpretable decision behaviors.