Learning Agentic Policy from Action Guidance

📄 arXiv: 2605.12004v1 📥 PDF

作者: Yuxiang Ji, Zengbin Wang, Yong Wang, Shidong Yang, Ziyu Ma, Guanhua Chen, Zonghua Sun, Liaoni Wu, Xiangxiang Chu

分类: cs.CL

发布日期: 2026-05-12

备注: Work in progress


💡 一句话要点

提出ActGuide-RL,利用行动指导提升LLM智能体策略探索能力,降低对SFT数据的依赖。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 智能体强化学习 大型语言模型 行动指导 探索策略 混合策略训练

📋 核心要点

  1. 现有Agentic RL方法依赖基础策略的探索能力,当基础策略无法到达奖励状态时,学习信号缺失。
  2. ActGuide-RL通过注入行动数据作为参考指导,克服到达奖励状态的障碍,并采用最小干预原则。
  3. 实验表明,ActGuide-RL在搜索任务上显著优于Zero RL,且无需冷启动即可与SFT+RL媲美。

📝 摘要(中文)

大型语言模型(LLM)的智能体强化学习(RL)严重依赖于基础策略的探索能力,因为训练信号仅在其能力范围内产生。对于基础策略无法到达奖励状态的任务,需要额外的训练或外部指导来恢复有效的学习信号。本文提出ActGuide-RL,它注入行动数据作为计划风格的参考指导,使智能体策略能够克服到达奖励状态的障碍,而非依赖于代价高昂的迭代监督微调(SFT)。然后,通过混合策略训练共同优化引导和非引导的rollout,将探索增益内化回非引导策略。受到收益-风险权衡的理论和实证分析的启发,本文采用最小干预原则,仅在自适应回退时调用指导,匹配任务难度,同时最小化off-policy风险。在搜索智能体基准测试中,ActGuide-RL显著优于零RL(在GAIA上+10.7 pp,在XBench上+19 pp,使用Qwen3-4B),并且在没有任何冷启动的情况下,与SFT+RL流程表现相当。这表明了一种新的智能体RL范例,通过使用可扩展的行动指导来减少对大量SFT数据的依赖。

🔬 方法详解

问题定义:Agentic RL旨在训练LLM智能体执行复杂任务,但当初始策略(base policy)的探索能力不足,无法到达奖励状态时,标准的RL方法难以奏效。现有的SFT+RL方法需要大量标注数据进行监督微调(SFT),成本高昂,且SFT数据质量直接影响最终性能。因此,如何高效地引导智能体探索,同时降低对SFT数据的依赖,是本文要解决的关键问题。

核心思路:本文的核心思路是利用人类交互中产生的丰富行动数据,将其作为“计划风格”的参考指导,引导智能体克服探索障碍,到达奖励状态。通过混合策略训练,将引导策略的探索能力迁移到非引导策略,最终实现自主探索。此外,为了平衡指导带来的收益和风险,采用了最小干预原则,仅在必要时提供指导,避免过度干预导致策略偏差。

技术框架:ActGuide-RL的整体框架包含以下几个主要步骤:1) 行动指导注入:将行动数据作为参考,引导智能体进行探索。2) 混合策略训练:同时训练引导策略和非引导策略,鼓励非引导策略学习引导策略的探索能力。3) 最小干预原则:根据任务难度自适应地调整指导的频率,避免过度干预。具体来说,智能体在每个时间步,会根据一个概率决定是否接受行动指导。如果接受指导,则按照指导行动执行;否则,按照自身策略执行。

关键创新:ActGuide-RL的关键创新在于:1) 行动指导作为探索手段:将行动数据作为一种廉价且有效的探索手段,替代了昂贵的SFT数据。2) 最小干预原则:通过自适应地调整指导频率,平衡了探索收益和策略偏差风险。与现有方法的本质区别在于,ActGuide-RL避免了对大量SFT数据的依赖,而是通过行动指导和混合策略训练,实现了高效的探索和学习。

关键设计:ActGuide-RL的关键设计包括:1) 指导概率的自适应调整:指导概率根据任务的难度动态调整,难度越高,指导概率越高。具体实现方式未知,论文中未明确说明。2) 混合策略训练的损失函数:损失函数的设计需要平衡引导策略和非引导策略的学习,具体形式未知,论文中未明确说明。3) 行动数据的选择:如何选择合适的行动数据作为指导,可能需要考虑行动数据的质量、相关性和多样性,具体策略未知,论文中未明确说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ActGuide-RL在搜索智能体基准测试中取得了显著的性能提升。使用Qwen3-4B模型,在GAIA数据集上相比Zero RL提升了10.7个百分点,在XBench数据集上提升了19个百分点。更重要的是,ActGuide-RL在没有任何冷启动的情况下,与SFT+RL流程表现相当,表明其能够有效降低对SFT数据的依赖。

🎯 应用场景

ActGuide-RL具有广泛的应用前景,例如:可以应用于各种需要智能体进行复杂决策的任务,如游戏AI、机器人控制、自动驾驶等。通过利用人类的行动数据,可以显著降低训练成本,提高智能体的性能。此外,该方法还可以用于个性化推荐、智能客服等领域,提升用户体验。

📄 摘要(原文)

Agentic reinforcement learning (RL) for Large Language Models (LLMs) critically depends on the exploration capability of the base policy, as training signals emerge only within its in-capability region. For tasks where the base policy cannot reach reward states, additional training or external guidance is needed to recover effective learning signals. Rather than relying on costly iterative supervised fine tuning (SFT), we exploit the abundant action data generated in everyday human interactions. We propose \textsc{ActGuide-RL}, which injects action data as plan-style reference guidance, enabling the agentic policy to overcome reachability barriers to reward states. Guided and unguided rollouts are then jointly optimized via mixed-policy training, internalizing the exploration gains back into the unguided policy. Motivated by a theoretical and empirical analysis of the benefit-risk trade-off, we adopt a minimal intervention principle that invokes guidance only as an adaptive fallback, matching task difficulty while minimizing off-policy risk. On search-agent benchmarks, \textsc{ActGuide-RL} substantially improves over zero RL (+10.7 pp on GAIA and +19 pp on XBench with Qwen3-4B), and performs on par with the SFT+RL pipeline without any cold start. This suggests a new paradigm for agentic RL that reduces the reliance on heavy SFT data by using scalable action guidance instead.