Experience Sharing in Mutual Reinforcement Learning for Heterogeneous Language Models
作者: Xiaoze Liu, Dhananjay Ram, Yuting Zhang, Zhaoyang Zhang, Wei Xia, Stefano Soatto
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-08
备注: 50 pages, 10 figures, 14 tables
💡 一句话要点
提出互惠强化学习(MRL)框架,实现异构大语言模型间的经验共享与协同训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 互惠强化学习 大语言模型后训练 异构模型协同 经验共享 分词器对齐 GRPO算法
📋 核心要点
- 现有LLM强化学习多局限于单一模型,缺乏在异构模型间高效复用经验的机制,导致计算资源浪费且难以利用不同模型架构的互补优势。
- 论文提出互惠强化学习框架,通过分词器异构层(THL)解决词表不兼容问题,并设计了数据、价值、结果三个层级的经验共享策略。
- 实验表明,该框架通过在不同共享机制间进行权衡,成功提升了训练效率,其中结果级共享(SGT)在稳定性与性能提升之间取得了最佳平衡。
📝 摘要(中文)
本文引入了互惠强化学习(Mutual Reinforcement Learning, MRL)框架,旨在实现异构大语言模型(LLM)策略在后训练阶段的并发强化学习。该框架允许模型在保持独立参数、目标函数和分词器(Tokenizer)的前提下,交换类型化的经验。MRL包含共享经验交换(SEE)、多工作者资源分配(MWRA)和分词器异构层(THL),后者通过重分词技术实现了不兼容词表间的Token级轨迹对齐。研究基于GRPO算法实例化了三种探测机制:数据级的Peer Rollout Pooling(PRP)、价值级的Cross-Policy GRPO Advantage Sharing(XGRPO)以及结果级的Success-Gated Transfer(SGT)。通过上下文赌博机分析,研究揭示了这些机制在稳定性与支持度权衡中的结构性位置,并指出结果级共享在当前评估体系下表现最优。
🔬 方法详解
问题定义:现有LLM后训练通常是孤立的,无法在具有不同架构、参数规模或分词器的模型间共享学习经验。这导致了计算资源的冗余,且难以利用异构模型在不同任务上的特长。
核心思路:引入互惠强化学习(MRL),通过解耦模型参数与经验交换机制,使异构模型能够通过共享“类型化经验”进行协同进化,同时保持各自的独立性。
技术框架:框架由三个核心模块组成:共享经验交换(SEE)负责经验的传递与同步;多工作者资源分配(MWRA)管理并发训练的计算负载;分词器异构层(THL)通过重分词与对齐算法,解决不同模型词表不匹配导致的语义鸿沟。
关键创新:THL模块是核心创新,它允许模型在不统一词表的情况下进行轨迹对齐,使得经验共享不再受限于模型架构的同质性。此外,通过PRP、XGRPO和SGT三种机制,实现了从数据到结果的多维度知识迁移。
关键设计:基于GRPO算法,SGT机制通过“成功门控”策略,仅将Peer模型验证过的成功经验传递给目标模型,从而在保持策略稳定性的同时,有效引导模型向高奖励区域收敛。
🖼️ 关键图片
📊 实验亮点
研究通过上下文赌博机分析量化了不同共享机制的性能边界。实验结果显示,PRP面临密度比方差和THL残差成本的挑战,XGRPO在保持策略支持度的同时调整标量基线,而SGT通过引入Peer模型的成功经验,在稳定性与性能提升的权衡中表现出显著优势,成为该框架下最有效的共享策略。
🎯 应用场景
该研究适用于多模型协同训练场景,如在资源受限环境下同时优化多个不同规模的LLM,或构建专家模型池以提升复杂推理任务的性能。其核心价值在于打破了模型间的“信息孤岛”,为大规模分布式强化学习提供了高效的知识迁移范式,对提升模型训练的样本效率具有重要意义。
📄 摘要(原文)
We introduce Mutual Reinforcement Learning, a framework for concurrent RL post-training in which heterogeneous LLM policies exchange typed experience while keeping separate parameters, objectives, and tokenizers. The framework combines a Shared Experience Exchange (SEE), Multi-Worker Resource Allocation (MWRA), and a Tokenizer Heterogeneity Layer (THL) that retokenizes text and aligns token-level traces across incompatible vocabularies. This substrate makes the experience-sharing design question operational across model families. We instantiate three controlled probes on top of GRPO: data-level rollout sharing via Peer Rollout Pooling (PRP), value-level advantage sharing via Cross-Policy GRPO Advantage Sharing (XGRPO), and outcome-level success transfer via Success-Gated Transfer (SGT). A contextual-bandit analysis characterizes their structural positions on a stability-support trade-off: PRP pays density-ratio variance and THL residual costs, XGRPO preserves on-policy actor support while changing scalar baselines, and SGT supplies a rescue-set score direction toward verified peer successes. In the evaluated regime, outcome-level sharing occupies the favorable point of this trade-off.