Search, Do not Guess: Teaching Small Language Models to Be Effective Search Agents
作者: Yizhou Liu, Qi Sun, Yulin Chen, Siyue Zhang, Chen Zhao
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出轻量级微调方法以提升小型语言模型的搜索能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 小型语言模型 搜索智能体 知识密集型任务 多跳推理 轻量级微调
📋 核心要点
- 现有的小型语言模型在知识密集型任务中表现不佳,尤其是在多跳推理时,容易出现幻觉且搜索工具调用频率低。
- 论文提出了一种轻量级微调方法 extit{policy},旨在训练小型语言模型更可靠地检索和生成基于证据的答案。
- 实验结果显示,该方法在Bamboogle和HotpotQA上分别提高了17.3分和15.3分,达到了大型语言模型的性能水平。
📝 摘要(中文)
配备搜索工具的智能体已成为知识密集型任务的有效解决方案。尽管大型语言模型(LLMs)展现出强大的推理能力,但其高计算成本限制了在搜索智能体中的实际应用。因此,近期研究集中于将LLMs的智能行为蒸馏到小型语言模型(SLMs)中。通过对复杂的多跳推理任务进行全面评估,我们发现SLMs在知识参数较少的情况下,搜索工具的调用频率较低,且更容易出现幻觉。为了解决这一问题,我们提出了一种轻量级的微调方法 extit{policy},明确训练SLMs可靠地检索和生成基于检索证据的答案。与从LLMs进行智能体蒸馏相比,我们的方法在Bamboogle上提高了17.3分,在HotpotQA上提高了15.3分,实现了基准测试中的LLM级别结果。进一步分析表明,SLMs中的自适应搜索策略往往会降低性能,强调了一致搜索行为在可靠推理中的必要性。
🔬 方法详解
问题定义:本论文旨在解决小型语言模型在知识密集型任务中表现不佳的问题,尤其是其在多跳推理时的低效搜索和高幻觉率。现有方法主要依赖于大型语言模型的蒸馏,但未能有效提升小型模型的搜索能力。
核心思路:论文提出的 extit{policy}方法通过轻量级微调,明确训练小型语言模型在检索和生成答案时的可靠性,旨在减少幻觉并提高搜索工具的有效利用。
技术框架:整体架构包括数据预处理、模型微调和评估三个主要模块。首先,通过特定的训练数据集对小型语言模型进行微调,然后在多跳推理任务上进行评估,以验证其性能提升。
关键创新:最重要的技术创新在于提出了一种新的微调策略,专注于一致的搜索行为,而非依赖自适应搜索策略,从而显著提高了模型的推理可靠性。
关键设计:在微调过程中,采用了特定的损失函数来优化检索和生成的准确性,并对模型的参数设置进行了细致调整,以确保其在多跳推理任务中的表现。具体的网络结构和参数设置在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的 extit{policy}方法在Bamboogle和HotpotQA上分别提高了17.3分和15.3分,显著超越了传统的蒸馏方法,达到了大型语言模型的性能水平,验证了其有效性。
🎯 应用场景
该研究的潜在应用领域包括智能问答系统、信息检索和知识管理等。通过提升小型语言模型的搜索能力,可以在资源受限的环境中实现高效的知识获取和处理,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Agents equipped with search tools have emerged as effective solutions for knowledge-intensive tasks. While Large Language Models (LLMs) exhibit strong reasoning capabilities, their high computational cost limits practical deployment for search agents. Consequently, recent work has focused on distilling agentic behaviors from LLMs into Small Language Models (SLMs). Through comprehensive evaluation on complex multi-hop reasoning tasks, we find that despite possessing less parametric knowledge, SLMs invoke search tools less frequently and are more prone to hallucinations. To address this issue, we propose \policy, a lightweight fine-tuning approach that explicitly trains SLMs to reliably retrieve and generate answers grounded in retrieved evidence. Compared to agent distillation from LLMs, our approach improves performance by 17.3 scores on Bamboogle and 15.3 scores on HotpotQA, achieving LLM-level results across benchmarks. Our further analysis reveals that adaptive search strategies in SLMs often degrade performance, highlighting the necessity of consistent search behavior for reliable reasoning.