Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents

作者: Yiding Wang, Zhepei Wei, Xinyu Zhu, Yu Meng

分类: cs.AI

发布日期: 2025-10-06

💡 一句话要点

提出DeSA框架，解耦搜索与回答，提升LLM Agent的问答准确率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 搜索增强 强化学习 解耦训练 问答系统 检索召回率 知识密集型任务

📋 核心要点

现有LLM Agent依赖结果奖励训练，忽略了中间搜索过程的优化，导致搜索行为存在缺陷，影响最终答案质量。
DeSA框架通过两阶段训练，首先利用检索召回率奖励优化搜索行为，然后利用结果奖励优化答案生成，实现解耦优化。
实验表明，DeSA在多个QA基准测试中显著提升了搜索召回率和答案准确率，优于单阶段联合优化方法。

📝 摘要（中文）

本文旨在解决大型语言模型（LLM）Agent在利用搜索工具时存在的不足，如知识截断和幻觉问题。现有方法通常采用强化学习（RL）训练搜索增强型Agent，依赖于基于结果的奖励（如精确匹配），隐含地假设优化最终答案也能带来有效的中间搜索行为。然而，我们的分析表明，仅基于结果的训练会导致搜索方面的系统性缺陷，最终降低答案质量，包括未能调用工具、无效查询和冗余搜索。为此，我们提出了DeSA（Decoupling Search-and-Answering），一个简单的两阶段训练框架，显式地将搜索优化与答案生成分离。第一阶段，Agent通过基于检索召回率的奖励来提高搜索有效性。第二阶段，采用结果奖励来优化最终答案生成。在七个QA基准测试中，DeSA训练的Agent始终改进了搜索行为，与仅基于结果的基线相比，提供了更高的搜索召回率和答案准确率。值得注意的是，DeSA优于同时优化召回率和结果奖励的单阶段训练方法，突出了显式解耦这两个目标的重要性。

🔬 方法详解

问题定义：现有基于LLM的Agent在进行知识密集型问答时，依赖外部搜索工具来弥补自身知识的不足。然而，直接使用最终答案的准确性作为奖励信号来训练Agent，会导致Agent在搜索过程中出现各种问题，例如不调用搜索工具、生成无效的搜索查询、进行冗余搜索等。这些问题最终会影响Agent生成答案的质量。

核心思路：DeSA的核心思路是将搜索过程的优化和答案生成过程的优化解耦。这意味着不再仅仅依赖最终答案的正确性来指导Agent的学习，而是分别针对搜索过程和答案生成过程设计独立的奖励机制。通过这种方式，可以更有效地提升Agent的搜索能力，从而提高最终答案的质量。

技术框架：DeSA框架包含两个阶段： 1. 搜索优化阶段：Agent与环境交互，生成搜索查询，并根据搜索结果的召回率获得奖励。该阶段的目标是提高Agent生成有效搜索查询的能力，使其能够找到与问题相关的文档。 2. 答案生成阶段：Agent利用第一阶段学习到的搜索能力，结合搜索结果和原始问题生成最终答案。该阶段使用基于结果的奖励（例如，答案的准确性）来优化答案生成过程。

关键创新：DeSA的关键创新在于显式地解耦了搜索优化和答案生成优化。与传统的单阶段训练方法相比，DeSA能够更有效地提升Agent的搜索能力，从而提高最终答案的质量。此外，DeSA还提出了一种基于检索召回率的奖励机制，用于指导搜索优化阶段的学习。

关键设计：在搜索优化阶段，DeSA使用检索召回率作为奖励信号。具体来说，对于Agent生成的每个搜索查询，DeSA会评估搜索结果与问题相关文档的重叠程度，并根据重叠程度给予Agent相应的奖励。在答案生成阶段，DeSA使用标准的基于结果的奖励，例如答案的精确匹配率。具体的网络结构和参数设置取决于所使用的LLM和搜索工具。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DeSA在七个QA基准测试中均取得了显著的性能提升。例如，在某些基准测试中，DeSA训练的Agent的答案准确率比基线方法提高了10%以上。此外，DeSA还显著提高了Agent的搜索召回率，表明其能够更有效地利用外部知识。重要的是，DeSA优于同时优化召回率和结果奖励的单阶段训练方法，验证了解耦优化策略的有效性。

🎯 应用场景

DeSA框架具有广泛的应用前景，可以应用于各种需要利用外部知识的问答场景，例如智能客服、知识库问答、医疗诊断等。通过提升LLM Agent的搜索能力，DeSA可以帮助用户更准确、更高效地获取所需信息，提高工作效率和决策质量。未来，DeSA还可以扩展到其他需要工具使用的任务中，例如代码生成、数据分析等。

📄 摘要（原文）

Enabling large language models (LLMs) to utilize search tools offers a promising path to overcoming fundamental limitations such as knowledge cutoffs and hallucinations. Recent work has explored reinforcement learning (RL) for training search-augmented agents that interleave reasoning and retrieval before answering. These approaches usually rely on outcome-based rewards (e.g., exact match), implicitly assuming that optimizing for final answers will also yield effective intermediate search behaviors. Our analysis challenges this assumption: we uncover multiple systematic deficiencies in search that arise under outcome-only training and ultimately degrade final answer quality, including failure to invoke tools, invalid queries, and redundant searches. To address these shortcomings, we introduce DeSA (Decoupling Search-and-Answering), a simple two-stage training framework that explicitly separates search optimization from answer generation. In Stage 1, agents are trained to improve search effectiveness with retrieval recall-based rewards. In Stage 2, outcome rewards are employed to optimize final answer generation. Across seven QA benchmarks, DeSA-trained agents consistently improve search behaviors, delivering substantially higher search recall and answer accuracy than outcome-only baselines. Notably, DeSA outperforms single-stage training approaches that simultaneously optimize recall and outcome rewards, underscoring the necessity of explicitly decoupling the two objectives.

Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理