To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

📄 arXiv: 2602.12566v1 📥 PDF

作者: Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang

分类: cs.AI

发布日期: 2026-02-13

🔗 代码/项目: GITHUB


💡 一句话要点

M2RL:探索混合训练与模型合并在多领域大语言模型强化学习中的优劣

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多领域学习 强化学习 大语言模型 模型合并 多任务学习 领域协同 权重空间 推理能力

📋 核心要点

  1. 现有方法缺乏对混合多任务训练和分离训练后模型合并这两种多领域强化学习范式的详细比较和分析。
  2. 论文通过实验对比两种范式在多领域强化学习中的表现,并分析其内在机制,揭示领域间的相互作用。
  3. 实验结果表明,推理密集型领域之间存在协同效应,并从多个角度分析了这种协同效应的内在原因。

📝 摘要(中文)

该论文研究了在多领域大语言模型(LLM)的强化学习中,两种主要的训练范式:混合多任务强化学习(RLVR)和分离强化学习后模型合并。为了深入比较和分析这两种范式,作者选择了数学、编程、科学和指令跟随等常见的高级任务作为目标领域,并使用开源数据集进行了广泛的定性和定量实验。研究发现,跨领域的强化学习表现出较少的相互干扰,而推理密集型领域则表现出相互协同效应。此外,作者从权重空间几何、模型预测行为和信息约束的角度分析了相互增益的内在机制。该项目被命名为M2RL,代表混合多任务训练或分离训练后模型合并的强化学习,项目主页为https://github.com/mosAI25/M2RL。

🔬 方法详解

问题定义:论文旨在解决如何有效地进行多领域大语言模型的强化学习问题。现有方法主要采用混合多任务训练或分离训练后模型合并两种范式,但缺乏对这两种范式的深入比较和分析,导致在实际应用中难以选择合适的训练策略。

核心思路:论文的核心思路是通过实验对比混合多任务训练和分离训练后模型合并两种范式在多个领域的表现,并分析其内在机制,从而为多领域大语言模型的强化学习提供指导。论文假设不同领域之间存在相互作用,并试图揭示这种相互作用的性质和影响。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择多个常用的高级任务(如数学、编程、科学和指令跟随)作为目标领域;2) 使用开源数据集,分别采用混合多任务训练和分离训练后模型合并两种范式进行强化学习;3) 通过定量和定性实验,比较两种范式的性能;4) 从权重空间几何、模型预测行为和信息约束的角度分析相互增益的内在机制。

关键创新:论文的关键创新在于对混合多任务训练和分离训练后模型合并两种范式进行了全面的比较和分析,并揭示了领域间的相互作用。此外,论文还从多个角度分析了相互增益的内在机制,为多领域大语言模型的强化学习提供了新的视角。

关键设计:论文的关键设计包括:1) 选择具有代表性的高级任务作为目标领域;2) 使用开源数据集,保证实验的可重复性;3) 采用多种评价指标,全面评估模型的性能;4) 从多个角度分析相互增益的内在机制,提供深入的理解。

📊 实验亮点

实验结果表明,推理密集型领域之间存在协同效应,即在这些领域进行联合训练或模型合并可以提升模型的整体性能。论文从权重空间几何、模型预测行为和信息约束的角度分析了这种协同效应的内在机制,为多领域大语言模型的强化学习提供了新的见解。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于构建通用型、多领域的大语言模型,例如智能助手、教育平台、科研工具等。通过选择合适的训练范式,可以提升模型在多个领域的性能,并降低训练成本。未来的研究可以进一步探索领域间的协同效应,并设计更有效的多领域强化学习算法。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) plays a key role in stimulating the explicit reasoning capability of Large Language Models (LLMs). We can achieve expert-level performance in some specific domains via RLVR, such as coding or math. When a general multi-domain expert-level model is required, we need to carefully consider the collaboration of RLVR across different domains. The current state-of-the-art models mainly employ two different training paradigms for multi-domain RLVR: mixed multi-task RLVR and separate RLVR followed by model merging. However, most of the works did not provide a detailed comparison and analysis about these paradigms. To this end, we choose multiple commonly used high-level tasks (e.g., math, coding, science, and instruction following) as our target domains and design extensive qualitative and quantitative experiments using open-source datasets. We find the RLVR across domains exhibits few mutual interferences, and reasoning-intensive domains demonstrate mutually synergistic effects. Furthermore, we analyze the internal mechanisms of mutual gains from the perspectives of weight space geometry, model prediction behavior, and information constraints. This project is named as M2RL that means Mixed multi-task training or separate training followed by model Merging for Reinforcement Learning, and the homepage is at https://github.com/mosAI25/M2RL