Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

📄 arXiv: 2601.20209v1 📥 PDF

作者: Jinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao

分类: cs.LG, cs.CL

发布日期: 2026-01-28


💡 一句话要点

Spark:通过动态分支的策略感知探索,解决长时程Agent学习中的资源分配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 长时程任务 策略感知 动态分支 探索策略

📋 核心要点

  1. 现有长时程Agent学习方法在资源有限情况下,盲目分配计算资源,导致样本质量不高。
  2. Spark通过在关键决策点进行动态分支探索,优先保证采样质量,实现资源高效利用。
  3. 实验表明,Spark在多种任务中,以更少的训练样本实现了更高的成功率和泛化能力。

📝 摘要(中文)

强化学习已赋能大型语言模型作为智能体,但由于高质量轨迹的稀缺性,尤其是在资源有限的情况下,训练它们执行长时程任务仍然具有挑战性。现有方法通常扩大 rollout 的规模,并在中间步骤中不加区分地分配计算资源。这种尝试固有地将大量计算预算浪费在不重要的步骤上,而无法保证样本质量。为了解决这个问题,我们提出了 Spark(通过关键状态动态分支的策略感知探索),这是一种新颖的框架,它在关键决策状态选择性地进行分支,以实现资源高效的探索。我们的关键见解是在关键决策点激活自适应分支探索,以探测有希望的轨迹,从而实现精确的资源分配,优先考虑采样质量而不是盲目覆盖。这种设计利用了智能体的内在决策信号来减少对人类先验的依赖,使智能体能够自主地扩展探索并实现更强的泛化。在各种任务(例如,具身规划)中的实验表明,Spark 以明显更少的训练样本实现了卓越的成功率,即使在未见过的场景中也表现出强大的泛化能力。

🔬 方法详解

问题定义:现有强化学习方法在训练长时程Agent时,面临高质量轨迹数据稀缺的问题,尤其是在计算资源有限的情况下。传统方法通常采用大规模rollout,并在所有步骤中平均分配计算资源,导致大量计算资源浪费在不重要的状态上,无法有效提升样本质量。因此,如何高效利用有限的计算资源,提升长时程Agent的学习效率和泛化能力,是本文要解决的核心问题。

核心思路:Spark的核心思路是在Agent进行决策的关键状态点,动态地进行分支探索。通过策略感知,判断哪些状态是关键决策点,并在这些点上进行更深入的探索,从而发现更有价值的轨迹。这种方法避免了在所有状态上平均分配计算资源,而是将资源集中在对学习最有帮助的关键状态上,从而提升了采样效率和样本质量。

技术框架:Spark框架主要包含以下几个模块:1) 策略网络:用于指导Agent的行动选择;2) 关键状态检测器:用于判断当前状态是否为关键决策点,可以基于策略网络的输出或其他状态信息进行判断;3) 分支探索模块:在关键状态点,根据一定的策略(如随机探索或基于策略的探索)生成多个分支轨迹;4) 轨迹评估模块:对生成的分支轨迹进行评估,选择最有价值的轨迹用于更新策略网络。整体流程是,Agent在环境中进行交互,关键状态检测器判断是否需要进行分支探索,如果需要,则分支探索模块生成多个分支轨迹,轨迹评估模块选择最优轨迹,并用该轨迹更新策略网络。

关键创新:Spark的关键创新在于策略感知的动态分支探索机制。与传统方法不同,Spark不是盲目地进行探索,而是根据Agent自身的策略信息,判断哪些状态是关键的,并在这些状态上进行有针对性的探索。这种方法能够更有效地利用计算资源,提升采样效率和样本质量。此外,Spark的设计减少了对人类先验知识的依赖,使Agent能够自主地进行探索,从而提升了泛化能力。

关键设计:关键状态检测器可以基于策略网络的输出,例如,当策略网络在某个状态的输出概率分布比较均匀时,说明Agent对该状态的决策比较不确定,该状态可能是一个关键决策点。分支探索模块可以采用多种策略,例如,随机探索、基于策略的探索或二者的结合。轨迹评估模块可以基于奖励、状态价值或其他指标对轨迹进行评估。损失函数的设计需要考虑如何平衡探索和利用,以及如何鼓励Agent探索更有价值的轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Spark在多种任务中都取得了显著的性能提升。例如,在具身规划任务中,Spark以明显更少的训练样本实现了更高的成功率,并且在未见过的场景中也表现出强大的泛化能力。与基线方法相比,Spark在样本效率和泛化能力方面都具有明显的优势。

🎯 应用场景

Spark具有广泛的应用前景,例如,可以应用于机器人导航、游戏AI、自动驾驶等需要长时程决策的任务中。通过高效的资源分配和策略感知的探索,Spark能够提升Agent的学习效率和泛化能力,使其能够在复杂环境中更好地完成任务。此外,Spark的设计思想也可以应用于其他强化学习算法中,提升其性能。

📄 摘要(原文)

Reinforcement learning has empowered large language models to act as intelligent agents, yet training them for long-horizon tasks remains challenging due to the scarcity of high-quality trajectories, especially under limited resources. Existing methods typically scale up rollout sizes and indiscriminately allocate computational resources among intermediate steps. Such attempts inherently waste substantial computation budget on trivial steps while failing to guarantee sample quality. To address this, we propose \textbf{Spark} (\textbf{S}trategic \textbf{P}olicy-\textbf{A}ware explo\textbf{R}ation via \textbf{K}ey-state dynamic branching), a novel framework that selectively branches at critical decision states for resource-efficient exploration. Our key insight is to activate adaptive branching exploration at critical decision points to probe promising trajectories, thereby achieving precise resource allocation that prioritizes sampling quality over blind coverage. This design leverages the agent's intrinsic decision-making signals to reduce dependence on human priors, enabling the agent to autonomously expand exploration and achieve stronger generalization. Experiments across diverse tasks (e.g., embodied planning), demonstrate that \textsc{Spark} achieves superior success rates with significantly fewer training samples, exhibiting robust generalization even in unseen scenarios.