Experience Sharing in Mutual Reinforcement Learning for Heterogeneous Language Models

作者: Xiaoze Liu, Dhananjay Ram, Yuting Zhang, Zhaoyang Zhang, Wei Xia, Stefano Soatto

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-08

备注: 50 pages, 10 figures, 14 tables

💡 一句话要点

提出互惠强化学习（MRL）框架，实现异构大语言模型间的经验共享与协同训练

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 互惠强化学习 大语言模型后训练 异构模型协同 经验共享 分词器对齐 GRPO算法

📋 核心要点

现有LLM强化学习多局限于单一模型，缺乏在异构模型间高效复用经验的机制，导致计算资源浪费且难以利用不同模型架构的互补优势。
论文提出互惠强化学习框架，通过分词器异构层（THL）解决词表不兼容问题，并设计了数据、价值、结果三个层级的经验共享策略。
实验表明，该框架通过在不同共享机制间进行权衡，成功提升了训练效率，其中结果级共享（SGT）在稳定性与性能提升之间取得了最佳平衡。

📝 摘要（中文）

本文引入了互惠强化学习（Mutual Reinforcement Learning, MRL）框架，旨在实现异构大语言模型（LLM）策略在后训练阶段的并发强化学习。该框架允许模型在保持独立参数、目标函数和分词器（Tokenizer）的前提下，交换类型化的经验。MRL包含共享经验交换（SEE）、多工作者资源分配（MWRA）和分词器异构层（THL），后者通过重分词技术实现了不兼容词表间的Token级轨迹对齐。研究基于GRPO算法实例化了三种探测机制：数据级的Peer Rollout Pooling（PRP）、价值级的Cross-Policy GRPO Advantage Sharing（XGRPO）以及结果级的Success-Gated Transfer（SGT）。通过上下文赌博机分析，研究揭示了这些机制在稳定性与支持度权衡中的结构性位置，并指出结果级共享在当前评估体系下表现最优。

🔬 方法详解

问题定义：现有LLM后训练通常是孤立的，无法在具有不同架构、参数规模或分词器的模型间共享学习经验。这导致了计算资源的冗余，且难以利用异构模型在不同任务上的特长。

核心思路：引入互惠强化学习（MRL），通过解耦模型参数与经验交换机制，使异构模型能够通过共享“类型化经验”进行协同进化，同时保持各自的独立性。

技术框架：框架由三个核心模块组成：共享经验交换（SEE）负责经验的传递与同步；多工作者资源分配（MWRA）管理并发训练的计算负载；分词器异构层（THL）通过重分词与对齐算法，解决不同模型词表不匹配导致的语义鸿沟。

关键创新：THL模块是核心创新，它允许模型在不统一词表的情况下进行轨迹对齐，使得经验共享不再受限于模型架构的同质性。此外，通过PRP、XGRPO和SGT三种机制，实现了从数据到结果的多维度知识迁移。

关键设计：基于GRPO算法，SGT机制通过“成功门控”策略，仅将Peer模型验证过的成功经验传递给目标模型，从而在保持策略稳定性的同时，有效引导模型向高奖励区域收敛。

🖼️ 关键图片

📊 实验亮点

研究通过上下文赌博机分析量化了不同共享机制的性能边界。实验结果显示，PRP面临密度比方差和THL残差成本的挑战，XGRPO在保持策略支持度的同时调整标量基线，而SGT通过引入Peer模型的成功经验，在稳定性与性能提升的权衡中表现出显著优势，成为该框架下最有效的共享策略。

🎯 应用场景

该研究适用于多模型协同训练场景，如在资源受限环境下同时优化多个不同规模的LLM，或构建专家模型池以提升复杂推理任务的性能。其核心价值在于打破了模型间的“信息孤岛”，为大规模分布式强化学习提供了高效的知识迁移范式，对提升模型训练的样本效率具有重要意义。

📄 摘要（原文）

We introduce Mutual Reinforcement Learning, a framework for concurrent RL post-training in which heterogeneous LLM policies exchange typed experience while keeping separate parameters, objectives, and tokenizers. The framework combines a Shared Experience Exchange (SEE), Multi-Worker Resource Allocation (MWRA), and a Tokenizer Heterogeneity Layer (THL) that retokenizes text and aligns token-level traces across incompatible vocabularies. This substrate makes the experience-sharing design question operational across model families. We instantiate three controlled probes on top of GRPO: data-level rollout sharing via Peer Rollout Pooling (PRP), value-level advantage sharing via Cross-Policy GRPO Advantage Sharing (XGRPO), and outcome-level success transfer via Success-Gated Transfer (SGT). A contextual-bandit analysis characterizes their structural positions on a stability-support trade-off: PRP pays density-ratio variance and THL residual costs, XGRPO preserves on-policy actor support while changing scalar baselines, and SGT supplies a rescue-set score direction toward verified peer successes. In the evaluated regime, outcome-level sharing occupies the favorable point of this trade-off.

Experience Sharing in Mutual Reinforcement Learning for Heterogeneous Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理