Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward
作者: Mustafa Anis Hussain, Xinle Wu, Yao Lu
分类: cs.AI
发布日期: 2026-05-29
💡 一句话要点
DecomposeR:提出面向规划的强化学习框架,提升LLM在深度研究任务中的表现。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度研究 大型语言模型 强化学习 规划 有向无环图 知识整合 Qwen3
📋 核心要点
- 现有LLM在深度研究任务中,规划与执行耦合,导致规划过程难以优化,信用分配不明确。
- DecomposeR将研究计划表示为有向无环图,显式地进行规划,并为规划过程设计奖励机制。
- 实验表明,DecomposeR在长篇基准测试中显著优于现有方法,提升了规划和回答能力。
📝 摘要(中文)
深度研究任务要求大型语言模型(LLM)规划研究方向、检索证据并综合多个分支的调查结果,最终形成长篇答案。现有的训练范式要么依赖于简短的可验证问答作为代理,要么优化单体的长轨迹,这使得规划和执行难以分离,并导致规划过程的信用分配较弱。我们提出了DecomposeR,一个面向规划器的深度研究框架,它将研究计划表示为类型化的有向无环图(DAG),从而使规划变得显式、结构化和可奖励。我们分两个阶段训练Qwen3-8B模型:首先,规划器强化学习(RL)学习图结构和查询分解,以改进研究规划;然后,回答器强化学习(RL)学习基于已学习计划的分支级别执行和最终综合。通过将奖励分配给显式规划器token和结构化组件,而不是分配给扁平轨迹,DecomposeR能够对规划进行更细粒度的优化,同时减少端到端训练的模糊性。实验表明,由于改进的规划和回答能力,DecomposeR-8B在流行的长篇基准测试中比强大的可比开放基线提高了5.1-8.0个百分点。
🔬 方法详解
问题定义:现有方法在训练LLM进行深度研究任务时,通常采用两种策略:一是使用简短的问答对作为代理任务,二是直接优化端到端的长轨迹。这两种方法都存在问题。前者无法很好地模拟真实的研究过程,后者则难以区分规划和执行,导致对规划过程的信用分配不明确,难以有效优化规划能力。
核心思路:DecomposeR的核心思路是将深度研究任务分解为规划和执行两个阶段,并显式地对规划过程进行建模和优化。通过将研究计划表示为类型化的有向无环图(DAG),DecomposeR使得规划过程更加结构化和可解释,从而可以针对规划过程进行更细粒度的奖励和优化。
技术框架:DecomposeR包含两个主要的训练阶段:规划器强化学习(Planner RL)和回答器强化学习(Answerer RL)。在Planner RL阶段,模型学习生成研究计划的DAG结构,包括确定需要调查的主题和分解查询。在Answerer RL阶段,模型基于已学习的计划,执行分支级别的研究和最终的答案综合。整个框架采用两阶段的强化学习训练方式,分别优化规划和执行能力。
关键创新:DecomposeR的关键创新在于其面向规划的强化学习框架,以及将研究计划表示为类型化的有向无环图。这种表示方式使得规划过程更加显式和结构化,从而可以针对规划过程进行更有效的优化。与传统的端到端训练方法相比,DecomposeR能够更好地分离规划和执行,并对规划过程进行更细粒度的信用分配。
关键设计:DecomposeR使用Qwen3-8B模型作为基础模型,并采用强化学习算法进行训练。在Planner RL阶段,模型学习生成DAG结构,并根据生成的DAG的质量(例如,是否能够有效地覆盖研究主题)获得奖励。在Answerer RL阶段,模型学习基于DAG结构进行研究和答案综合,并根据答案的质量获得奖励。具体的技术细节包括奖励函数的设计、DAG结构的表示方式以及强化学习算法的选择。
🖼️ 关键图片
📊 实验亮点
DecomposeR-8B在流行的长篇基准测试中,相比于强大的可比开放基线,取得了5.1-8.0个百分点的显著提升。这一结果表明,DecomposeR通过改进规划和回答能力,能够有效地提高LLM在深度研究任务中的表现。实验结果验证了DecomposeR框架的有效性和优越性。
🎯 应用场景
DecomposeR具有广泛的应用前景,可以应用于需要深度研究和知识整合的领域,例如科学研究、市场分析、政策制定等。该框架可以帮助LLM更好地理解复杂的问题,制定合理的研究计划,并最终生成高质量的答案或报告。此外,DecomposeR的显式规划能力也有助于提高LLM的可解释性和可控性。
📄 摘要(原文)
Deep research tasks require LLMs to plan what to investigate, retrieve evidence, and synthesize long-form answers across multiple branches of inquiry. Existing training paradigms either rely on short-form verifiable QA as a proxy or optimize monolithic long trajectories, which makes planning and execution difficult to disentangle and yields weak credit assignment for the planning process. We propose DecomposeR, a planner-centric deep research framework that represents research plans as typed directed acyclic graphs (DAGs), allowing planning to be made explicit, structured, and rewardable. We train a Qwen3-8B model in two stages: planner reinforcement learning (RL) first learns graph structure and query decomposition to improve research planning, and answerer reinforcement learning (RL) then learns branch-level execution and final synthesis conditioned on the learned plan. By assigning rewards to explicit planner tokens and structured components rather than to a flat trajectory, DecomposeR enables finer-grained optimization of planning while reducing the ambiguity of end-to-end training. Experiments show that DecomposeR-8B improves over strong comparable open baselines by 5.1-8.0 points on popular long-form benchmarks due to improved planning and answering capabilities.