Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents

📄 arXiv: 2510.04695v1 📥 PDF

作者: Yiding Wang, Zhepei Wei, Xinyu Zhu, Yu Meng

分类: cs.AI

发布日期: 2025-10-06


💡 一句话要点

提出DeSA框架,解耦搜索与回答,提升LLM Agent的问答准确率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 搜索增强 强化学习 解耦训练 问答系统 检索召回率 知识密集型任务

📋 核心要点

  1. 现有LLM Agent依赖结果奖励训练,忽略了中间搜索过程的优化,导致搜索行为存在缺陷,影响最终答案质量。
  2. DeSA框架通过两阶段训练,首先利用检索召回率奖励优化搜索行为,然后利用结果奖励优化答案生成,实现解耦优化。
  3. 实验表明,DeSA在多个QA基准测试中显著提升了搜索召回率和答案准确率,优于单阶段联合优化方法。

📝 摘要(中文)

本文旨在解决大型语言模型(LLM)Agent在利用搜索工具时存在的不足,如知识截断和幻觉问题。现有方法通常采用强化学习(RL)训练搜索增强型Agent,依赖于基于结果的奖励(如精确匹配),隐含地假设优化最终答案也能带来有效的中间搜索行为。然而,我们的分析表明,仅基于结果的训练会导致搜索方面的系统性缺陷,最终降低答案质量,包括未能调用工具、无效查询和冗余搜索。为此,我们提出了DeSA(Decoupling Search-and-Answering),一个简单的两阶段训练框架,显式地将搜索优化与答案生成分离。第一阶段,Agent通过基于检索召回率的奖励来提高搜索有效性。第二阶段,采用结果奖励来优化最终答案生成。在七个QA基准测试中,DeSA训练的Agent始终改进了搜索行为,与仅基于结果的基线相比,提供了更高的搜索召回率和答案准确率。值得注意的是,DeSA优于同时优化召回率和结果奖励的单阶段训练方法,突出了显式解耦这两个目标的重要性。

🔬 方法详解

问题定义:现有基于LLM的Agent在进行知识密集型问答时,依赖外部搜索工具来弥补自身知识的不足。然而,直接使用最终答案的准确性作为奖励信号来训练Agent,会导致Agent在搜索过程中出现各种问题,例如不调用搜索工具、生成无效的搜索查询、进行冗余搜索等。这些问题最终会影响Agent生成答案的质量。

核心思路:DeSA的核心思路是将搜索过程的优化和答案生成过程的优化解耦。这意味着不再仅仅依赖最终答案的正确性来指导Agent的学习,而是分别针对搜索过程和答案生成过程设计独立的奖励机制。通过这种方式,可以更有效地提升Agent的搜索能力,从而提高最终答案的质量。

技术框架:DeSA框架包含两个阶段: 1. 搜索优化阶段:Agent与环境交互,生成搜索查询,并根据搜索结果的召回率获得奖励。该阶段的目标是提高Agent生成有效搜索查询的能力,使其能够找到与问题相关的文档。 2. 答案生成阶段:Agent利用第一阶段学习到的搜索能力,结合搜索结果和原始问题生成最终答案。该阶段使用基于结果的奖励(例如,答案的准确性)来优化答案生成过程。

关键创新:DeSA的关键创新在于显式地解耦了搜索优化和答案生成优化。与传统的单阶段训练方法相比,DeSA能够更有效地提升Agent的搜索能力,从而提高最终答案的质量。此外,DeSA还提出了一种基于检索召回率的奖励机制,用于指导搜索优化阶段的学习。

关键设计:在搜索优化阶段,DeSA使用检索召回率作为奖励信号。具体来说,对于Agent生成的每个搜索查询,DeSA会评估搜索结果与问题相关文档的重叠程度,并根据重叠程度给予Agent相应的奖励。在答案生成阶段,DeSA使用标准的基于结果的奖励,例如答案的精确匹配率。具体的网络结构和参数设置取决于所使用的LLM和搜索工具。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeSA在七个QA基准测试中均取得了显著的性能提升。例如,在某些基准测试中,DeSA训练的Agent的答案准确率比基线方法提高了10%以上。此外,DeSA还显著提高了Agent的搜索召回率,表明其能够更有效地利用外部知识。重要的是,DeSA优于同时优化召回率和结果奖励的单阶段训练方法,验证了解耦优化策略的有效性。

🎯 应用场景

DeSA框架具有广泛的应用前景,可以应用于各种需要利用外部知识的问答场景,例如智能客服、知识库问答、医疗诊断等。通过提升LLM Agent的搜索能力,DeSA可以帮助用户更准确、更高效地获取所需信息,提高工作效率和决策质量。未来,DeSA还可以扩展到其他需要工具使用的任务中,例如代码生成、数据分析等。

📄 摘要(原文)

Enabling large language models (LLMs) to utilize search tools offers a promising path to overcoming fundamental limitations such as knowledge cutoffs and hallucinations. Recent work has explored reinforcement learning (RL) for training search-augmented agents that interleave reasoning and retrieval before answering. These approaches usually rely on outcome-based rewards (e.g., exact match), implicitly assuming that optimizing for final answers will also yield effective intermediate search behaviors. Our analysis challenges this assumption: we uncover multiple systematic deficiencies in search that arise under outcome-only training and ultimately degrade final answer quality, including failure to invoke tools, invalid queries, and redundant searches. To address these shortcomings, we introduce DeSA (Decoupling Search-and-Answering), a simple two-stage training framework that explicitly separates search optimization from answer generation. In Stage 1, agents are trained to improve search effectiveness with retrieval recall-based rewards. In Stage 2, outcome rewards are employed to optimize final answer generation. Across seven QA benchmarks, DeSA-trained agents consistently improve search behaviors, delivering substantially higher search recall and answer accuracy than outcome-only baselines. Notably, DeSA outperforms single-stage training approaches that simultaneously optimize recall and outcome rewards, underscoring the necessity of explicitly decoupling the two objectives.