Effective Reinforcement Learning for Agentic Search by Recycling Zero-Variance Queries During Training

📄 arXiv: 2606.10709v1 📥 PDF

作者: João Coelho, João Magalhães, Bruno Martins, Chenyan Xiong

分类: cs.IR, cs.AI

发布日期: 2026-06-09


💡 一句话要点

提出查询回收机制以提升强化学习搜索代理的训练效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 搜索代理 查询回收 多跳问答 零方差查询 训练效率 大型语言模型

📋 核心要点

  1. 现有GRPO风格算法在处理零方差查询时存在效率低下的问题,导致训练资源浪费。
  2. 论文提出的查询回收机制允许将零方差查询重新利用,从而提高训练效率和效果。
  3. 实验结果显示,使用该机制的模型在多跳问答任务上表现优异,准确率显著提升。

📝 摘要(中文)

随着GRPO风格算法成为在仅基于结果的奖励下训练大型语言模型(LLM)搜索代理的标准策略,现有方法在处理零方差查询时存在不足。传统方法将零方差视为静态属性,通常会丢弃或预过滤这些查询组。本文假设并实证验证了查询在训练过程中会在零方差和信号承载状态之间切换。基于这一直觉,提出了查询回收机制,将零方差组返回可变池中以便未来重新采样,从而使有效训练分布与策略共同演化。实验表明,使用该技术的1.7B参数模型在七个多跳问答基准上达到了66.0的平均Pass@1准确率,匹配或超越了使用高达7B参数的系统。

🔬 方法详解

问题定义:本文旨在解决现有强化学习搜索代理在训练过程中对零方差查询的处理不足,导致训练效率低下和资源浪费的问题。现有方法通常会丢弃这些查询组,无法充分利用其潜在价值。

核心思路:论文提出的查询回收机制基于假设,即查询在训练过程中会在零方差和信号承载状态之间切换。通过将零方差查询返回可变池中,允许未来重新采样,从而使训练分布与策略共同演化。

技术框架:整体架构包括查询生成、查询评估和查询回收三个主要模块。首先生成查询并进行评估,识别零方差查询,然后将其回收到可变池中以备后续使用。

关键创新:最重要的技术创新在于提出了查询回收机制,这一机制与现有方法的本质区别在于动态利用零方差查询,而非简单丢弃或过滤。

关键设计:在参数设置上,模型使用1.7B参数,损失函数采用标准的强化学习损失,网络结构基于现有的LLM架构,确保能够有效处理多跳问答任务。实验中,回收的查询占有效批次的约四分之三,显示出其在政策改进和漂移中的重要作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用查询回收机制的1.7B参数模型在七个多跳问答基准上达到了66.0的平均Pass@1准确率,表现与高达7B参数的系统相当或更优,显示出显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括智能搜索引擎、问答系统和对话代理等。通过提升训练效率,能够在资源有限的情况下实现更高性能的模型,具有重要的实际价值和广泛的应用前景。未来,该技术可能推动更多基于强化学习的智能系统的发展。

📄 摘要(原文)

The use of GRPO-style algorithms has become the standard strategy for training LLM search agents under outcome-only rewards. With these algorithms, a query contributes to parameter updates only when its rollout group mixes successes and failures; all-correct (too-easy) and all-incorrect (too-hard) groups are zero-variance and waste rollout cost. Existing approaches treat zero-variance as a static property and either discard or pre-filter such groups. We hypothesize and empirically validate that queries flip between zero-variance and signal-bearing states as the policy evolves during training. Building on this intuition, we propose query recycling, which returns zero-variance groups to a mutable pool for future resampling, so that the effective training distribution co-evolves with the policy. With the proposed technique, a 1.7B parameter model trained on synthetic data can reach 66.0 average Pass@1 accross seven multi-hop QA benchmarks, matching or surpassing systems with up to 7B parameters trained on benchmark-derived supervision. Analysis of recycling patterns shows that recycled queries supply roughly three quarters of the effective batch by the end of training, with contributions split between recovery from policy improvement and policy drift.