Towards Effective Experiential Learning: Dual Guidance for Utilization and Internalization

📄 arXiv: 2603.24093v1 📥 PDF

作者: Fei Bai, Zhipeng Chen, Chuan Hao, Ming Yang, Ran Tao, Bryan Dai, Wayne Xin Zhao, Jian Yang, Hongteng Xu

分类: cs.LG, cs.AI

发布日期: 2026-03-25


💡 一句话要点

提出DGO双重引导优化框架,提升LLM在RLVR训练中的经验利用与内化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 经验学习 可验证奖励 双重引导 推理任务 经验内化 策略优化

📋 核心要点

  1. 现有基于RL的LLM训练方法未能充分模拟人类学习过程,忽略了经验的有效利用和知识的内化。
  2. DGO框架通过构建经验库并结合模型内部知识,实现外部经验的有效利用和内部知识的逐步内化。
  3. 实验结果表明,DGO在推理任务上显著优于现有基线方法,验证了其在经验利用和内化方面的有效性。

📝 摘要(中文)

近来,强化学习(RL)已成为提升大型语言模型(LLM)能力的重要方法。特别是,基于可验证奖励的强化学习(RLVR)已成为推理任务的一种有前景的范例。然而,现有的基于RL的训练仍然只是对人类学习的粗略近似。人类学习者利用外部和内部经验来指导探索,并逐步将有用的轨迹内化为稳定的知识。受此差距的启发,我们提出问题:LLM如何在RLVR训练期间更好地利用和内化经验?为了回答这个问题,我们提出了双重引导优化(DGO),这是一个统一的框架,利用外部和内部经验来提高训练效率。具体来说,DGO首先从先前探索的轨迹构建一个经验库。然后,策略在经验库和模型内部知识的联合指导下执行探索。由此产生的轨迹进一步用于完善经验库和优化模型参数,形成经验利用和内化的闭环。实验表明,DGO始终优于基线方法,表明更好地利用和内化经验可以带来更有效的推理。

🔬 方法详解

问题定义:现有基于强化学习的大语言模型训练方法,尤其是RLVR,在经验利用和内化方面存在不足。它们未能充分模拟人类学习过程,即利用外部经验指导探索,并将有用的轨迹内化为稳定的知识。这导致训练效率低下,模型推理能力提升有限。

核心思路:论文的核心思路是借鉴人类学习过程,设计一个能够同时利用外部经验和内部知识的训练框架。通过构建经验库来存储有用的轨迹,并结合模型自身的知识进行探索,从而实现经验的有效利用和知识的逐步内化。

技术框架:DGO框架包含以下几个主要模块:1) 经验库构建:从先前探索的轨迹中构建经验库,存储有用的经验。2) 双重引导探索:策略在经验库和模型内部知识的联合指导下进行探索,生成新的轨迹。3) 经验库更新:使用新生成的轨迹来更新经验库,保持经验库的时效性。4) 模型优化:使用新生成的轨迹来优化模型参数,提升模型性能。整个过程形成一个闭环,不断迭代优化。

关键创新:DGO的关键创新在于其双重引导机制,即同时利用外部经验(经验库)和内部知识(模型自身)来指导探索。这与传统的RL方法只依赖于模型自身进行探索不同,能够更有效地利用已有的经验,加速学习过程。

关键设计:论文中经验库的具体实现方式、经验库更新策略、以及如何将经验库的信息融入到策略探索过程中是关键设计。具体的参数设置、损失函数和网络结构等细节在论文中应该有详细描述,但摘要中未提及。

📊 实验亮点

实验结果表明,DGO框架在推理任务上始终优于基线方法,证明了其有效性。具体的性能数据和提升幅度需要在论文中查找。DGO的成功表明,更好地利用和内化经验可以带来更有效的推理能力,为未来的研究提供了新的方向。

🎯 应用场景

DGO框架具有广泛的应用前景,可应用于各种需要利用经验进行学习的场景,例如机器人控制、游戏AI、自动驾驶等。通过更好地利用和内化经验,DGO可以显著提升模型的学习效率和性能,加速相关领域的发展。此外,该方法对于提升大语言模型在复杂推理任务上的能力具有重要意义。

📄 摘要(原文)

Recently, reinforcement learning~(RL) has become an important approach for improving the capabilities of large language models~(LLMs). In particular, reinforcement learning from verifiable rewards~(RLVR) has emerged as a promising paradigm for reasoning tasks. However, existing RL-based training still remains only a rough approximation to human learning. Human learners leverage both external and internal experience to guide exploration and gradually internalize useful trajectories into stable knowledge. Motivated by this gap, we ask: how can LLMs better utilize and internalize experience during RLVR training? To answer this question, we propose \textbf{D}ual \textbf{G}uidance \textbf{O}ptimization~(\textbf{DGO}), a unified framework that leverages \emph{external} and \emph{internal experience} to improve training effectiveness. Specifically, DGO first constructs an experience bank from previously explored trajectories. The policy then performs exploration under the joint guidance of the experience bank and the model's internal knowledge. The resulting trajectories are further used to refine the experience bank and optimize model parameters, forming a closed loop of experience utilization and internalization. Experiments show that DGO consistently outperforms baseline methods, suggesting that better utilization and internalization of experience lead to more effective reasoning.