Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning
作者: Zihan Liang, Yufei Ma, Ben Chen, Zhipeng Qian, Xuxin Zhang, Huangyu Dai, Lingtao Mao
分类: cs.AI, cs.CL, cs.IR
发布日期: 2026-05-21
💡 一句话要点
Search-E1:通过自蒸馏驱动搜索增强推理中的自进化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 搜索增强推理 自蒸馏 自进化 强化学习 离线学习
📋 核心要点
- 现有搜索增强推理方法依赖复杂的外部监督和辅助模块,增加了训练难度和资源依赖。
- Search-E1提出一种自进化方法,仅通过GRPO和离线自蒸馏交错,实现Agent的自我改进。
- 实验表明,Search-E1在多个QA基准上超越了同等规模的开源基线,验证了其有效性。
📝 摘要(中文)
后训练已成为将语言模型转化为有效的搜索增强推理Agent的主流方法。最近的研究通过在该标准流程之上添加精细的机制来进一步提升其性能,例如引入来自更强大的外部系统的外部监督,附加辅助模块(如过程奖励模型或回顾性评论器),使用树搜索或多阶段课程重构rollout本身,或使用手工制作的奖励和惩罚来塑造奖励。虽然每个添加都带来了可衡量的收益,但也增加了训练流程的复杂性,并将配方与可能并非总是可用的资源或设计联系起来。本文退一步思考,这些机制是否真的必要,并提出了Search-E1,一种自进化方法,它允许搜索增强Agent仅通过vanilla GRPO与离线自蒸馏(OFSD)交错来改进。在每个GRPO轮次之后,策略在自己的训练问题上进行rollout。然后,token级别的正向KL目标将策略的推理时分布与其在暴露更有效sibling轨迹的特权上下文下的自身分布对齐。尽管这种方法很简单,但该过程自然地提供了密集的每步监督。在七个QA基准测试中,Search-E1使用Qwen2.5-3B达到了0.440的平均EM,超过了所有同等规模的开源基线。
🔬 方法详解
问题定义:论文旨在解决搜索增强推理Agent训练过程中对复杂外部监督和辅助模块的依赖问题。现有方法通常需要引入外部知识、奖励模型或复杂的rollout策略,这增加了训练的复杂性和资源需求,限制了其在资源受限环境下的应用。
核心思路:论文的核心思路是通过自蒸馏驱动Agent的自进化。具体来说,Agent通过与自身交互产生数据,并利用这些数据进行离线自蒸馏,从而在没有外部监督的情况下提升性能。这种方法的核心在于利用Agent自身的知识来指导学习,避免了对外部资源的过度依赖。
技术框架:Search-E1的整体框架包含两个主要阶段:GRPO(Generative Pre-trained Reasoning with Off-Policy learning)和OFSD(Offline Self-Distillation)。在GRPO阶段,Agent通过与环境交互生成轨迹数据。在OFSD阶段,Agent使用这些数据进行离线自蒸馏,将自身的推理时分布与在特权上下文下的分布对齐。这两个阶段交替进行,从而实现Agent的自进化。
关键创新:Search-E1的关键创新在于其自进化的训练方式。与传统的依赖外部监督的方法不同,Search-E1通过自蒸馏利用Agent自身的知识进行学习,从而降低了对外部资源的依赖。此外,Search-E1使用token级别的正向KL散度作为自蒸馏的目标函数,从而实现了更精细的知识迁移。
关键设计:Search-E1的关键设计包括:1) 使用vanilla GRPO作为基础的强化学习算法;2) 使用离线自蒸馏来提升Agent的性能;3) 使用token级别的正向KL散度作为自蒸馏的目标函数,鼓励Agent学习更有效的推理路径;4) 通过交替进行GRPO和OFSD,实现Agent的自进化。
🖼️ 关键图片
📊 实验亮点
Search-E1在七个QA基准测试中取得了显著的成果。使用Qwen2.5-3B模型,Search-E1达到了0.440的平均EM,超越了所有同等规模的开源基线。这一结果表明,Search-E1能够有效地利用自蒸馏来提升Agent的推理能力,并在没有外部监督的情况下实现高性能。
🎯 应用场景
Search-E1具有广泛的应用前景,可用于构建低成本、高效率的搜索增强推理Agent。该方法尤其适用于资源受限的环境,例如移动设备或嵌入式系统。此外,Search-E1还可以应用于其他需要自主学习和进化的任务,例如机器人控制和游戏AI。
📄 摘要(原文)
Post-training has become the dominant recipe for turning a language model into a competent search-augmented reasoning agent. A line of recent work pushes its performance further by adding elaborate machinery on top of this standard pipeline. These augmentations import external supervision from stronger external systems, attach auxiliary modules such as process reward models or retrospective critics, restructure the rollout itself with tree search or multi-stage curricula, or shape the reward with hand-crafted bonuses and penalties. Each addition delivers a measurable gain, but each also inflates the training pipeline and ties the recipe to resources or designs that may not always be available. We take a step back and ask whether any of this machinery is actually necessary, and propose Search-E1, a self-evolution method that lets a search-augmented agent improve through only vanilla GRPO interleaved with offline self-distillation (OFSD). After each GRPO round, the policy rolls out on its own training questions. A token-level forward KL objective then aligns the policy's inference-time distribution to its own distribution under a privileged context that exposes a more efficient sibling trajectory. Despite this simplicity, the procedure naturally provides dense per-step supervision. On seven QA benchmarks, Search-E1 reaches $0.440$ average EM with Qwen2.5-3B, surpassing all open-source baselines at both scales. Code and complete version will be made public soon.