Extra-Merge: Tracing the Rank-1 Subspace of Model Merging in Language Model Pre-Training

作者: Wenjie Zhou, Bohan Wang, Hongtao Zhang, Chenxi Jia, Wei Chen, Xueqi Cheng

分类: cs.LG

发布日期: 2026-05-26

💡 一句话要点

提出Extra-Merge以优化语言模型合并过程

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 模型合并 语言模型 优化策略 Rank-1子空间 无训练方法 自然语言处理 深度学习

📋 核心要点

现有的模型合并方法在优化过程中存在不稳定性，导致性能提升不明显。
本文提出的Extra-Merge策略通过分析合并检查点的稳定性，利用Rank-1子空间现象来优化模型合并过程。
实验结果显示，Extra-Merge在多个模型上均优于传统合并方法，尤其在下游任务中实现了显著的准确率提升。

📝 摘要（中文）

模型合并作为增强大型语言模型（LLMs）的轻量级范式，尽管其潜在机制尚不明确。本文分析了后期预训练轨迹，揭示了一个Rank-1子空间现象：尽管原始优化步骤剧烈波动，连续的合并检查点却收敛到一个稳定的、近似一维的线性流形。通过河谷景观分析理论化这一观察，平均化作为几何低通滤波器，抑制高曲率噪声以揭示最佳下降方向。基于此洞察，提出了Extra-Merge，一种无训练的策略，通过沿该子空间外推来最小化损失，无需额外的梯度更新。大量实验表明，Extra-Merge在GPT-2和LLaMA系列模型上表现优于标准合并基线，并在Pythia-12B下游任务中实现了一致的零-shot准确率提升，且有效推广至Muon优化器。

🔬 方法详解

问题定义：本文旨在解决现有模型合并方法在优化过程中不稳定的问题，导致合并效果不理想。

核心思路：通过分析后期预训练轨迹，发现合并检查点在一个近似一维的线性流形上收敛，提出Extra-Merge策略以利用这一现象，进行无训练的损失最小化。

技术框架：整体流程包括对合并检查点的分析、Rank-1子空间的识别，以及通过外推来优化损失。主要模块包括数据预处理、合并检查点的提取和损失最小化策略的实施。

关键创新：最重要的创新在于提出了Rank-1子空间现象及其在模型合并中的应用，区别于传统方法的依赖于梯度更新的优化方式。

关键设计：在实现中，Extra-Merge不需要额外的梯度更新，利用几何低通滤波器的特性来抑制高曲率噪声，确保合并过程的稳定性和有效性。具体参数设置和损失函数设计在实验部分进行了详细说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Extra-Merge在GPT-2和LLaMA系列模型上均优于标准合并基线，尤其在Pythia-12B下游任务中实现了显著的零-shot准确率提升，具体提升幅度达到X%（具体数据待补充），并且有效推广至Muon优化器。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和文本生成等。Extra-Merge的提出为大型语言模型的优化提供了一种新的思路，能够在不增加计算成本的情况下提升模型性能，未来可能在多种AI应用中发挥重要作用。

📄 摘要（原文）

Model merging has emerged as a lightweight paradigm for enhancing Large Language Models (LLMs), yet its underlying mechanisms remain poorly understood. In this work, we analyze late-stage pre-training trajectories and uncover a \textbf{Rank-1 Subspace} phenomenon: while raw optimization steps oscillate violently, consecutive \emph{merged} checkpoints collapse onto a stable, approximately one-dimensional linear manifold. We theoretically ground this observation in a \emph{river-valley} landscape analysis: averaging acts as a geometric low-pass filter that dampens high-curvature noise to reveal the optimal descent direction. Capitalizing on this insight, we propose \textbf{Extra-Merge}, a training-free strategy that extrapolates along this subspace to minimize loss without additional gradient updates. Extensive experiments across GPT-2 and LLaMA families (124M to 2B) demonstrate that Extra-Merge consistently outperforms standard merging baselines. Notably, it yields consistent zero-shot accuracy gains on Pythia-12B downstream tasks and generalizes effectively to the Muon optimizer \citep{jordan2024muon}.

Extra-Merge: Tracing the Rank-1 Subspace of Model Merging in Language Model Pre-Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理