SEM: Reinforcement Learning for Search-Efficient Large Language Models

📄 arXiv: 2505.07903v1 📥 PDF

作者: Zeyang Sha, Shiwen Cui, Weiqiang Wang

分类: cs.CL, cs.AI

发布日期: 2025-05-12


💡 一句话要点

提出SEM框架,通过强化学习优化LLM的搜索效率,减少冗余搜索。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 搜索优化 外部知识 推理效率

📋 核心要点

  1. 现有强化学习方法训练LLM调用搜索引擎时,存在冗余搜索问题,导致效率降低和成本增加。
  2. SEM框架通过强化学习显式训练LLM,优化搜索使用,使其能够区分何时利用内部知识,何时进行外部检索。
  3. 实验结果表明,SEM能显著减少冗余搜索,同时保持或提升答案准确性,提高LLM的推理效率。

📝 摘要(中文)

本文提出了一种名为SEM的后训练强化学习框架,旨在优化大型语言模型(LLM)的搜索使用。现有强化学习方法常导致冗余搜索行为,造成效率低下和成本过高。SEM通过构建一个平衡的数据集(结合MuSiQue和MMLU),创建模型必须区分可以直接回答的问题和需要外部检索的问题的场景。论文设计了一个结构化的推理模板,并采用Group Relative Policy Optimization (GRPO) 来对模型的搜索行为进行后训练。奖励函数鼓励准确回答,避免不必要的搜索,并在需要时促进有效的检索。实验结果表明,该方法显著减少了冗余搜索操作,同时保持或提高了多个具有挑战性的基准测试中的答案准确性。该框架提高了模型的推理效率,并扩展了其明智地利用外部知识的能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在利用外部搜索工具时存在的冗余搜索问题。现有方法在训练LLM决定何时进行搜索以及何时依赖其内部知识方面存在困难,导致不必要的搜索操作,降低效率并增加成本。

核心思路:论文的核心思路是通过强化学习,显式地训练LLM优化其搜索行为。通过设计合适的奖励函数,鼓励模型在能够直接回答问题时避免搜索,而在需要外部知识时进行有效的检索。这种方法旨在使LLM能够更明智地利用外部知识,提高推理效率。

技术框架:SEM框架是一个后训练强化学习框架,主要包含以下几个阶段:1) 数据集构建:构建一个平衡的数据集,包含需要搜索和不需要搜索的问题;2) 结构化推理模板设计:设计一个结构化的推理模板,引导模型进行推理和搜索;3) 强化学习训练:使用Group Relative Policy Optimization (GRPO) 算法对模型的搜索行为进行后训练;4) 奖励函数设计:设计一个奖励函数,鼓励准确回答,避免不必要的搜索,并在需要时促进有效的检索。

关键创新:SEM框架的关键创新在于其显式地训练LLM优化搜索行为。与现有方法相比,SEM更注重对搜索行为的精细控制,通过强化学习使模型能够更好地判断何时进行搜索。此外,GRPO算法的应用也提高了训练的效率和稳定性。

关键设计:在数据集构建方面,论文结合了MuSiQue和MMLU数据集,创建了一个包含需要搜索和不需要搜索的问题的平衡数据集。在奖励函数设计方面,论文设计了一个综合考虑答案准确性、搜索次数和检索效果的奖励函数。具体参数设置和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,SEM框架能够显著减少LLM的冗余搜索操作,同时保持或提高答案准确性。在多个具有挑战性的基准测试中,SEM框架都取得了优于现有方法的性能。具体的性能数据和提升幅度在论文中未给出明确的数值,属于未知信息。

🎯 应用场景

该研究成果可应用于各种需要LLM进行知识检索和推理的场景,例如智能问答系统、对话机器人、信息检索等。通过优化LLM的搜索行为,可以提高系统的效率和准确性,降低运营成本,并提升用户体验。未来,该方法有望扩展到更复杂的任务和领域,例如科学研究、金融分析等。

📄 摘要(原文)

Recent advancements in Large Language Models(LLMs) have demonstrated their capabilities not only in reasoning but also in invoking external tools, particularly search engines. However, teaching models to discern when to invoke search and when to rely on their internal knowledge remains a significant challenge. Existing reinforcement learning approaches often lead to redundant search behaviors, resulting in inefficiencies and over-cost. In this paper, we propose SEM, a novel post-training reinforcement learning framework that explicitly trains LLMs to optimize search usage. By constructing a balanced dataset combining MuSiQue and MMLU, we create scenarios where the model must learn to distinguish between questions it can answer directly and those requiring external retrieval. We design a structured reasoning template and employ Group Relative Policy Optimization(GRPO) to post-train the model's search behaviors. Our reward function encourages accurate answering without unnecessary search while promoting effective retrieval when needed. Experimental results demonstrate that our method significantly reduces redundant search operations while maintaining or improving answer accuracy across multiple challenging benchmarks. This framework advances the model's reasoning efficiency and extends its capability to judiciously leverage external knowledge.