ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning
作者: Yu Li, Rui Miao, Zhengling Qi, Tian Lan
分类: cs.AI
发布日期: 2026-03-17
🔗 代码/项目: GITHUB
💡 一句话要点
提出ARISE框架,通过内在技能演化提升Agent在数学推理中的能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 分层强化学习 内在技能演化 数学推理 技能库 Agent推理
📋 核心要点
- 现有基于强化学习的数学推理方法孤立地处理每个问题,忽略了训练中涌现的可复用策略。
- ARISE框架通过分层强化学习,利用技能管理器维护技能库,并选择相关技能来指导推理过程。
- 实验表明,ARISE在多个数学推理基准测试中优于现有方法,尤其在分布外任务上提升显著。
📝 摘要(中文)
为了提升语言模型在数学推理方面的能力,本文提出了一种基于分层强化学习的框架,名为ARISE(Agent Reasoning via Intrinsic Skill Evolution,基于内在技能演化的Agent推理)。该框架采用共享策略,在高层管理技能(技能管理器),在低层生成响应(工作者)。技能管理器通过专门的技能生成rollout,对成功解决方案的轨迹进行结构化总结,从而维护一个分层的技能库。同时,采用策略驱动的选择机制来检索相关技能,用于调节未来的rollout。分层奖励机制引导推理能力和技能库质量的协同演化。在两个基础模型和七个基准测试(包括竞赛数学和Omni-MATH)上的实验表明,ARISE始终优于GRPO系列算法和记忆增强的基线方法,尤其是在分布外任务上表现出显著的提升。消融研究证实了每个组件对观察到的改进都有贡献,并且技能库质量和推理性能在整个训练过程中同步提高。代码已开源。
🔬 方法详解
问题定义:现有基于强化学习的数学推理方法,例如GRPO系列,通常将每个数学问题视为独立的个体进行训练,缺乏对训练过程中产生的可复用策略的有效利用。这种孤立的学习方式导致模型难以泛化到新的、分布外的数学问题,并且浪费了大量的计算资源和时间。因此,如何有效地提取、存储和利用训练过程中获得的知识,以提升模型的泛化能力和推理效率,是本文要解决的核心问题。
核心思路:ARISE的核心思路是通过分层强化学习,将复杂的数学推理任务分解为技能管理和问题解决两个层次。高层技能管理器负责维护一个技能库,该技能库存储了在先前成功解决问题的过程中学习到的策略片段。低层工作者则负责根据当前问题和技能管理器提供的技能,生成具体的解决方案。通过这种分层结构,ARISE能够有效地复用先前学习到的知识,并将其应用于新的问题,从而提高模型的泛化能力和推理效率。
技术框架:ARISE框架包含两个主要模块:技能管理器(Skills Manager)和工作者(Worker)。技能管理器负责维护一个分层的技能库,并通过技能生成rollout来不断更新和完善该技能库。技能生成rollout通过对成功解决方案的轨迹进行结构化总结,提取出关键的策略片段,并将其存储到技能库中。在解决新的问题时,技能管理器会根据当前问题的特征,从技能库中选择相关的技能,并将其提供给工作者。工作者则根据当前问题和技能管理器提供的技能,生成具体的解决方案。整个框架采用分层奖励机制,引导推理能力和技能库质量的协同演化。
关键创新:ARISE最重要的技术创新点在于其内在技能演化机制。与传统的强化学习方法不同,ARISE不是孤立地学习每个问题,而是通过技能库来存储和复用先前学习到的知识。这种内在技能演化机制使得模型能够不断地积累经验,并将其应用于新的问题,从而提高模型的泛化能力和推理效率。此外,ARISE的分层结构也使得模型能够更好地管理和利用知识,从而提高推理的效率和准确性。
关键设计:技能库采用分层结构,以便更好地组织和检索技能。技能生成rollout采用结构化总结方法,从成功解决方案的轨迹中提取关键的策略片段。技能选择机制采用策略驱动的方法,根据当前问题的特征,从技能库中选择相关的技能。分层奖励机制包括对工作者的奖励和对技能管理器的奖励,以引导推理能力和技能库质量的协同演化。具体的网络结构和参数设置取决于所使用的基础模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ARISE在两个基础模型和七个基准测试中均优于现有方法,尤其是在分布外任务上表现出显著的提升。例如,在某些任务上,ARISE的性能提升超过10%。消融研究证实了每个组件对观察到的改进都有贡献,并且技能库质量和推理性能在整个训练过程中同步提高。
🎯 应用场景
ARISE框架具有广泛的应用前景,可以应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、自然语言推理等。该研究的实际价值在于提高了Agent在复杂任务中的推理能力和泛化能力,未来可能推动人工智能在教育、科研等领域的应用。
📄 摘要(原文)
The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at \href{https://github.com/Skylanding/ARISE}{https://github.com/Skylanding/ARISE}.