IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning

📄 arXiv: 2604.15148v1 📥 PDF

作者: Zihan Liang, Yufei Ma, Ben Chen, Zhipeng Qian, Huangyu Dai, Lingtao Mao, Xuxin Zhang, Chenyi Lei, Wenwu Ou

分类: cs.AI, cs.CL, cs.IR

发布日期: 2026-04-16


💡 一句话要点

提出IG-Search,利用信息增益奖励提升搜索增强推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 搜索增强推理 强化学习 信息增益 步进式奖励 问答系统

📋 核心要点

  1. 现有搜索增强推理方法依赖轨迹级别奖励,无法区分搜索查询的优劣,导致训练效率低下。
  2. IG-Search利用信息增益作为步进式奖励,评估检索文档对答案置信度的提升,从而指导搜索查询优化。
  3. 实验表明,IG-Search在问答任务上显著优于现有方法,尤其在多跳推理任务中提升明显,且训练开销增加有限。

📝 摘要(中文)

本文提出IG-Search,一种强化学习框架,用于训练大型语言模型执行搜索增强推理。现有方法依赖于轨迹级别的奖励,无法区分搜索查询的质量,且在所有轨迹都失败时梯度信号几乎消失。IG-Search引入基于信息增益(IG)的步进式奖励,衡量检索文档相对于随机文档基线,对模型答案置信度的提升程度,从而反映搜索查询的有效性。该信号通过GRPO中的token优势调制反馈给相应的搜索查询token,实现细粒度的步进式信用分配。IG-Search仅需标准问答对,无需额外中间标注。在七个单跳和多跳QA基准测试中,IG-Search使用Qwen2.5-3B实现了0.430的平均EM,优于最强的轨迹级别基线(MR-Search)1.6个点,优于步进式方法GiGPO平均0.9个点,尤其在多跳推理任务上表现突出。IG-Search仅增加约6.4%的训练时间,不影响推理延迟,且在所有轨迹都错误时仍提供有意义的梯度信号。

🔬 方法详解

问题定义:论文旨在解决搜索增强推理中,现有强化学习方法难以有效区分搜索查询质量的问题。现有方法通常使用轨迹级别的奖励,即只有在整个推理过程成功后才能获得奖励,这导致模型难以学习到好的搜索策略,尤其是在多跳推理任务中,一个错误的搜索步骤可能导致整个轨迹失败,从而使得梯度信号稀疏,训练难以进行。

核心思路:论文的核心思路是引入步进式的信息增益(Information Gain)奖励,用于评估每个搜索步骤的有效性。具体来说,信息增益衡量的是检索到的文档相对于随机文档,对模型预测正确答案的置信度提升程度。如果检索到的文档能够显著提高模型对正确答案的置信度,则该搜索步骤被认为是有效的,并获得更高的奖励。

技术框架:IG-Search的整体框架基于强化学习,使用大型语言模型作为策略网络,通过与环境交互(即搜索和推理)来学习最优的搜索策略。框架包含以下主要模块:1) 策略网络:负责生成搜索查询;2) 搜索模块:根据查询检索相关文档;3) 推理模块:利用检索到的文档进行推理,并预测答案;4) 奖励模块:计算步进式信息增益奖励,用于指导策略网络的训练。该奖励通过GRPO(Gradient Ratio Policy Optimization)算法中的token优势调制反馈给对应的搜索查询token。

关键创新:IG-Search的关键创新在于引入了步进式的信息增益奖励,这与传统的轨迹级别奖励方法有本质区别。传统的轨迹级别奖励只能提供稀疏的反馈信号,而IG-Search可以提供密集的反馈信号,从而更有效地指导策略网络的训练。此外,IG-Search不需要额外的中间标注,而是直接利用模型自身的生成概率来计算信息增益,这使得该方法更加通用和易于应用。

关键设计:IG-Search的关键设计包括:1) 信息增益的计算方式:论文使用KL散度来衡量模型在检索到相关文档和随机文档情况下的概率分布差异,从而计算信息增益;2) 奖励的归一化:为了避免奖励值过大或过小,论文对信息增益进行了归一化处理;3) GRPO算法的应用:论文使用GRPO算法将步进式奖励反馈给对应的搜索查询token,从而实现细粒度的信用分配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IG-Search在七个单跳和多跳QA基准测试中取得了显著的性能提升。使用Qwen2.5-3B模型,IG-Search实现了0.430的平均EM,优于最强的轨迹级别基线(MR-Search)1.6个点,优于步进式方法GiGPO平均0.9个点。尤其在多跳推理任务上,IG-Search的提升更为明显。此外,IG-Search仅增加约6.4%的训练时间,不影响推理延迟,且在所有轨迹都错误时仍提供有意义的梯度信号。

🎯 应用场景

IG-Search可应用于各种需要搜索增强推理的场景,例如问答系统、知识图谱推理、信息检索等。该方法能够提高模型在复杂推理任务中的准确性和效率,具有广泛的应用前景。未来,可以将IG-Search扩展到其他领域,例如代码生成、文本摘要等,进一步提升模型的智能水平。

📄 摘要(原文)

Reinforcement learning has emerged as an effective paradigm for training large language models to perform search-augmented reasoning. However, existing approaches rely on trajectory-level rewards that cannot distinguish precise search queries from vague or redundant ones within a rollout group, and collapse to a near-zero gradient signal whenever every sampled trajectory fails. In this paper, we propose IG-Search, a reinforcement learning framework that introduces a step-level reward based on Information Gain (IG). For each search step, IG measures how much the retrieved documents improve the model's confidence in the gold answer relative to a counterfactual baseline of random documents, thereby reflecting the effectiveness of the underlying search query. This signal is fed back to the corresponding search-query tokens via per-token advantage modulation in GRPO, enabling fine-grained, step-level credit assignment within a rollout. Unlike prior step-level methods that require either externally annotated intermediate supervision or shared environment states across trajectories, IG-Search derives its signals from the policy's own generation probabilities, requiring no intermediate annotations beyond standard question-answer pairs. Experiments on seven single-hop and multi-hop QA benchmarks demonstrate that IG-Search achieves an average EM of 0.430 with Qwen2.5-3B, outperforming the strongest trajectory-level baseline (MR-Search) by 1.6 points and the step-level method GiGPO by 0.9 points on average across benchmarks, with particularly pronounced gains on multi-hop reasoning tasks. Despite introducing a dense step-level signal, IG-Search adds only ~6.4% to per-step training wall-clock time over the trajectory-level baseline and leaves inference latency unchanged, while still providing a meaningful gradient signal even when every sampled trajectory answers incorrectly.