Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

作者: Mustafa Anis Hussain, Xinle Wu, Yao Lu

分类: cs.AI

发布日期: 2026-05-29

💡 一句话要点

DecomposeR：提出面向规划的强化学习框架，提升LLM在深度研究任务中的表现。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度研究 大型语言模型 强化学习 规划 有向无环图 知识整合 Qwen3

📋 核心要点

现有LLM在深度研究任务中，规划与执行耦合，导致规划过程难以优化，信用分配不明确。
DecomposeR将研究计划表示为有向无环图，显式地进行规划，并为规划过程设计奖励机制。
实验表明，DecomposeR在长篇基准测试中显著优于现有方法，提升了规划和回答能力。

📝 摘要（中文）

深度研究任务要求大型语言模型（LLM）规划研究方向、检索证据并综合多个分支的调查结果，最终形成长篇答案。现有的训练范式要么依赖于简短的可验证问答作为代理，要么优化单体的长轨迹，这使得规划和执行难以分离，并导致规划过程的信用分配较弱。我们提出了DecomposeR，一个面向规划器的深度研究框架，它将研究计划表示为类型化的有向无环图（DAG），从而使规划变得显式、结构化和可奖励。我们分两个阶段训练Qwen3-8B模型：首先，规划器强化学习（RL）学习图结构和查询分解，以改进研究规划；然后，回答器强化学习（RL）学习基于已学习计划的分支级别执行和最终综合。通过将奖励分配给显式规划器token和结构化组件，而不是分配给扁平轨迹，DecomposeR能够对规划进行更细粒度的优化，同时减少端到端训练的模糊性。实验表明，由于改进的规划和回答能力，DecomposeR-8B在流行的长篇基准测试中比强大的可比开放基线提高了5.1-8.0个百分点。

🔬 方法详解

问题定义：现有方法在训练LLM进行深度研究任务时，通常采用两种策略：一是使用简短的问答对作为代理任务，二是直接优化端到端的长轨迹。这两种方法都存在问题。前者无法很好地模拟真实的研究过程，后者则难以区分规划和执行，导致对规划过程的信用分配不明确，难以有效优化规划能力。

核心思路：DecomposeR的核心思路是将深度研究任务分解为规划和执行两个阶段，并显式地对规划过程进行建模和优化。通过将研究计划表示为类型化的有向无环图（DAG），DecomposeR使得规划过程更加结构化和可解释，从而可以针对规划过程进行更细粒度的奖励和优化。

技术框架：DecomposeR包含两个主要的训练阶段：规划器强化学习（Planner RL）和回答器强化学习（Answerer RL）。在Planner RL阶段，模型学习生成研究计划的DAG结构，包括确定需要调查的主题和分解查询。在Answerer RL阶段，模型基于已学习的计划，执行分支级别的研究和最终的答案综合。整个框架采用两阶段的强化学习训练方式，分别优化规划和执行能力。

关键创新：DecomposeR的关键创新在于其面向规划的强化学习框架，以及将研究计划表示为类型化的有向无环图。这种表示方式使得规划过程更加显式和结构化，从而可以针对规划过程进行更有效的优化。与传统的端到端训练方法相比，DecomposeR能够更好地分离规划和执行，并对规划过程进行更细粒度的信用分配。

关键设计：DecomposeR使用Qwen3-8B模型作为基础模型，并采用强化学习算法进行训练。在Planner RL阶段，模型学习生成DAG结构，并根据生成的DAG的质量（例如，是否能够有效地覆盖研究主题）获得奖励。在Answerer RL阶段，模型学习基于DAG结构进行研究和答案综合，并根据答案的质量获得奖励。具体的技术细节包括奖励函数的设计、DAG结构的表示方式以及强化学习算法的选择。

🖼️ 关键图片

📊 实验亮点

DecomposeR-8B在流行的长篇基准测试中，相比于强大的可比开放基线，取得了5.1-8.0个百分点的显著提升。这一结果表明，DecomposeR通过改进规划和回答能力，能够有效地提高LLM在深度研究任务中的表现。实验结果验证了DecomposeR框架的有效性和优越性。

🎯 应用场景

DecomposeR具有广泛的应用前景，可以应用于需要深度研究和知识整合的领域，例如科学研究、市场分析、政策制定等。该框架可以帮助LLM更好地理解复杂的问题，制定合理的研究计划，并最终生成高质量的答案或报告。此外，DecomposeR的显式规划能力也有助于提高LLM的可解释性和可控性。

📄 摘要（原文）

Deep research tasks require LLMs to plan what to investigate, retrieve evidence, and synthesize long-form answers across multiple branches of inquiry. Existing training paradigms either rely on short-form verifiable QA as a proxy or optimize monolithic long trajectories, which makes planning and execution difficult to disentangle and yields weak credit assignment for the planning process. We propose DecomposeR, a planner-centric deep research framework that represents research plans as typed directed acyclic graphs (DAGs), allowing planning to be made explicit, structured, and rewardable. We train a Qwen3-8B model in two stages: planner reinforcement learning (RL) first learns graph structure and query decomposition to improve research planning, and answerer reinforcement learning (RL) then learns branch-level execution and final synthesis conditioned on the learned plan. By assigning rewards to explicit planner tokens and structured components rather than to a flat trajectory, DecomposeR enables finer-grained optimization of planning while reducing the ambiguity of end-to-end training. Experiments show that DecomposeR-8B improves over strong comparable open baselines by 5.1-8.0 points on popular long-form benchmarks due to improved planning and answering capabilities.

Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理