Online Experiential Learning for Language Models
作者: Tianzhu Ye, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei
分类: cs.CL
发布日期: 2026-03-17
💡 一句话要点
提出在线经验学习框架OEL,提升语言模型在真实部署环境中的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 在线学习 经验学习 语言模型 上下文蒸馏 持续学习
📋 核心要点
- 现有语言模型训练范式忽略了真实部署环境中的数据,导致模型无法充分利用实际经验进行持续优化。
- OEL框架通过提取用户交互轨迹中的经验知识,并使用on-policy上下文蒸馏将其整合到模型参数中,实现持续学习。
- 实验表明,OEL能够显著提升模型在文本游戏环境中的任务准确性和token效率,并保持良好的泛化能力。
📝 摘要(中文)
大型语言模型的改进通常依赖于人工标注或模拟环境的离线训练,完全忽略了真实部署中积累的丰富经验。本文提出在线经验学习(OEL)框架,使语言模型能够从自身的部署经验中持续改进。OEL分两个阶段运行:首先,从用户侧收集的交互轨迹中提取并积累可迁移的经验知识;其次,通过on-policy上下文蒸馏将这些知识整合到模型参数中,无需访问用户侧环境。这两个阶段迭代形成一个在线学习循环,改进后的模型收集更高质量的轨迹,从而为后续轮次产生更丰富的经验知识。我们在多个模型规模以及有/无思维变体的基于文本的游戏环境中评估了OEL。OEL在连续迭代中实现了持续改进,提高了任务准确性和token效率,同时保持了分布外性能。分析表明,提取的经验知识比原始轨迹更有效,并且知识来源和策略模型之间的on-policy一致性对于有效的学习至关重要。
🔬 方法详解
问题定义:现有大型语言模型的训练主要依赖于离线数据,例如人工标注数据或模拟环境生成的数据。这种方式无法利用模型在真实部署环境中与用户交互产生的宝贵经验,导致模型无法根据实际情况进行持续优化和改进。因此,如何让语言模型能够从自身的部署经验中学习,是一个重要的研究问题。
核心思路:本文的核心思路是提出一个在线经验学习(OEL)框架,该框架能够从用户交互轨迹中提取经验知识,并将这些知识整合到模型参数中,从而实现模型的持续改进。OEL的关键在于提取可迁移的经验知识,并使用on-policy上下文蒸馏方法,确保知识的有效传递和利用。
技术框架:OEL框架包含两个主要阶段:经验知识提取和知识整合。在经验知识提取阶段,模型与用户进行交互,收集交互轨迹,并从中提取可迁移的经验知识。在知识整合阶段,使用on-policy上下文蒸馏方法,将提取的经验知识整合到模型参数中。这两个阶段迭代进行,形成一个在线学习循环。具体来说,首先,模型在用户侧环境中进行部署,并与用户进行交互,生成交互轨迹。然后,从这些轨迹中提取经验知识,例如成功的策略或常见的错误。接下来,使用on-policy上下文蒸馏方法,将这些经验知识整合到模型参数中,从而改进模型。最后,将改进后的模型重新部署到用户侧环境中,并重复上述过程。
关键创新:OEL框架的关键创新在于以下几点:1) 提出了一种在线学习框架,能够从真实部署环境中持续学习;2) 提出了一种经验知识提取方法,能够从交互轨迹中提取可迁移的知识;3) 使用on-policy上下文蒸馏方法,确保知识的有效传递和利用。与传统的离线训练方法相比,OEL能够更好地利用真实部署环境中的数据,从而实现模型的持续优化和改进。
关键设计:在经验知识提取阶段,可以使用不同的方法来提取经验知识,例如模仿学习或强化学习。在知识整合阶段,可以使用不同的蒸馏方法,例如上下文蒸馏或特征蒸馏。本文采用on-policy上下文蒸馏,以确保知识来源和策略模型之间的一致性。具体的损失函数设计和网络结构选择取决于具体的应用场景和模型架构。此外,如何有效地选择和过滤经验知识,以避免引入噪声,也是一个重要的设计考虑。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OEL框架在文本游戏环境中能够显著提升模型的任务准确性和token效率。例如,在多个模型规模和有/无思维变体的实验中,OEL在连续迭代中实现了持续改进。此外,实验还证明,提取的经验知识比原始轨迹更有效,并且知识来源和策略模型之间的on-policy一致性对于有效的学习至关重要。
🎯 应用场景
OEL框架具有广泛的应用前景,可以应用于各种需要与用户进行交互的语言模型应用中,例如对话系统、智能助手、游戏AI等。通过持续学习用户交互数据,OEL能够提升模型的性能和用户体验,并使其更好地适应真实世界环境。该研究对于推动语言模型在实际应用中的发展具有重要意义。
📄 摘要(原文)
The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.