DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling

作者: Hao Sun, Zile Qiao, Bo Wang, Guoxin Chen, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

分类: cs.IR, cs.AI, cs.CL

发布日期: 2025-09-07

备注: EMNLP 2025 Main Conference

💡 一句话要点

DecoupleSearch：通过分层奖励建模解耦规划与搜索，提升Agentic RAG性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic RAG 检索增强生成 大型语言模型 规划与搜索解耦 分层奖励建模

📋 核心要点

Agentic RAG面临规划和搜索相互依赖、中间推理缺乏监督以及候选空间巨大的挑战。
DecoupleSearch通过双重价值模型解耦规划和搜索，独立优化推理和搜索过程，构建推理树。
实验表明，DecoupleSearch在不同参数规模的策略模型上均表现出有效性，提升了Agentic RAG的性能。

📝 摘要（中文）

检索增强生成（RAG）系统已成为通过动态集成外部知识来增强大型语言模型（LLM）的关键方法。为了进一步提高RAG的灵活性，Agentic RAG将自主代理引入工作流程。然而，Agentic RAG面临几个挑战：（1）每个步骤的成功取决于高质量的规划和准确的搜索；（2）缺乏对中间推理步骤的监督；（3）规划和搜索的候选空间呈指数级增长。为了应对这些挑战，我们提出DecoupleSearch，这是一种新颖的框架，它使用双重价值模型解耦规划和搜索过程，从而能够独立优化规划推理和搜索基础。我们的方法构建了一个推理树，其中每个节点代表规划和搜索步骤。我们利用蒙特卡洛树搜索来评估每个步骤的质量。在推理过程中，分层束搜索使用双重价值模型迭代地细化规划和搜索候选。对不同参数大小的策略模型进行的大量实验证明了我们方法的有效性。

🔬 方法详解

问题定义：Agentic RAG系统在利用外部知识增强大型语言模型时，面临规划和搜索相互依赖的问题。每个步骤的成功都依赖于高质量的规划和准确的搜索，而现有方法通常将两者耦合在一起，难以独立优化。此外，中间推理步骤缺乏明确的监督信号，导致模型难以学习有效的推理策略。最后，规划和搜索的候选空间呈指数级增长，使得搜索最优解变得非常困难。

核心思路：DecoupleSearch的核心思路是将规划和搜索过程解耦，通过双重价值模型分别评估规划和搜索的质量，从而实现独立优化。这种解耦允许模型更专注于每个步骤的推理和 grounding，避免了相互干扰。同时，利用分层奖励建模，可以更好地监督中间推理步骤，引导模型学习更有效的推理路径。

技术框架：DecoupleSearch的技术框架主要包括以下几个模块：1) 推理树构建：构建一个推理树，其中每个节点代表规划和搜索步骤。2) 双重价值模型：使用两个独立的价值模型，分别评估规划和搜索步骤的质量。3) 蒙特卡洛树搜索（MCTS）：利用MCTS来评估每个步骤的潜在价值，指导搜索过程。4) 分层束搜索：在推理阶段，使用分层束搜索迭代地细化规划和搜索候选，并利用双重价值模型进行评估和选择。

关键创新：DecoupleSearch最重要的技术创新点在于解耦规划和搜索过程，并使用双重价值模型进行独立优化。与现有方法相比，DecoupleSearch能够更有效地利用外部知识，提高Agentic RAG的性能。此外，分层奖励建模也为中间推理步骤提供了更强的监督信号，引导模型学习更有效的推理策略。

关键设计：DecoupleSearch的关键设计包括：1) 双重价值模型的具体结构和训练方法，例如可以使用不同的神经网络结构或损失函数。2) MCTS的搜索策略和参数设置，例如探索率和深度。3) 分层束搜索的束宽和迭代次数。4) 如何设计奖励函数来有效地监督中间推理步骤，例如可以考虑奖励规划的合理性和搜索结果的相关性。

🖼️ 关键图片

📊 实验亮点

论文通过在不同参数规模的策略模型上进行实验，验证了DecoupleSearch的有效性。实验结果表明，DecoupleSearch能够显著提高Agentic RAG的性能，尤其是在需要复杂推理和知识检索的任务上。具体的性能数据和提升幅度在论文中进行了详细的展示，证明了该方法的优越性。

🎯 应用场景

DecoupleSearch可应用于各种需要知识增强的自然语言处理任务，例如问答系统、对话系统、文本摘要和机器翻译。通过解耦规划和搜索，该方法可以更有效地利用外部知识，提高模型的准确性和可靠性。未来，该方法可以扩展到更复杂的任务和领域，例如知识图谱推理和多模态信息检索。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) systems have emerged as a pivotal methodology for enhancing Large Language Models (LLMs) through the dynamic integration of external knowledge. To further improve RAG's flexibility, Agentic RAG introduces autonomous agents into the workflow. However, Agentic RAG faces several challenges: (1) the success of each step depends on both high-quality planning and accurate search, (2) the lack of supervision for intermediate reasoning steps, and (3) the exponentially large candidate space for planning and searching. To address these challenges, we propose DecoupleSearch, a novel framework that decouples planning and search processes using dual value models, enabling independent optimization of plan reasoning and search grounding. Our approach constructs a reasoning tree, where each node represents planning and search steps. We leverage Monte Carlo Tree Search to assess the quality of each step. During inference, Hierarchical Beam Search iteratively refines planning and search candidates with dual value models. Extensive experiments across policy models of varying parameter sizes, demonstrate the effectiveness of our method.

DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理