Param$Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

📄 arXiv: 2504.21023v1 📥 PDF

作者: Sheng Cao, Mingrui Wu, Karthik Prasad, Yuandong Tian, Zechun Liu

分类: cs.CL, cs.LG

发布日期: 2025-04-23

备注: Published as a conference paper at ICLR 2025

期刊: ICLR 2025


💡 一句话要点

提出ParamΔ,实现零成本迁移后训练知识到新版大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练 知识迁移 权重混合 零成本学习

📋 核心要点

  1. 现有大语言模型后训练方法需要大量数据和计算资源,且每次基础模型更新后都需要重新训练和评估,成本高昂。
  2. ParamΔ方法通过计算后训练模型和基础模型之间的权重差异,并将其应用于更新后的基础模型,实现知识迁移,无需额外训练。
  3. 实验表明,ParamΔ模型在Llama3、Qwen等模型上表现出色,能够以较低的成本达到接近传统后训练的性能水平。

📝 摘要(中文)

大语言模型的后训练阶段对于提升指令跟随、推理和与人类偏好对齐等能力至关重要。然而,这需要大量高质量数据,并存在过拟合的风险,以及因每次基础模型更新后重复进行后训练和评估而产生的大量计算成本。本文介绍了一种名为$ParamΔ$的新方法,通过将现有后训练模型的知识迁移到新更新的基础模型,从而简化后训练过程,且无需额外的训练。通过计算后训练模型权重($Θ_\text{post}$)和基础模型权重($Θ_\text{base}$)之间的差异,并将其添加到更新后的基础模型($Θ' ext{base}$),我们将$ParamΔ$模型定义为:$Θ{\text{Param}Δ} = Θ_\text{post} - Θ_\text{base} + Θ'_ ext{base}$。令人惊讶的是,这种方法使新的基础模型具备了后训练能力,性能与直接后训练相当。我们对LLama3、Llama3.1、Qwen和DeepSeek-distilled模型进行了分析。结果表明,$ParamΔ$模型有效地复制了传统的后训练。例如,从70B Llama3-inst、Llama3-base、Llama3.1-base模型获得的$ParamΔ$模型平均达到了Llama3.1-inst模型性能的约95%。$ParamΔ$为如何充分利用开放权重社区中的模型提供了一个新的视角,在该社区中,基础模型和指令模型的检查点随时可用且经常更新,通过提供一个零成本框架来加速模型开发的迭代周期。

🔬 方法详解

问题定义:论文旨在解决大语言模型后训练阶段计算成本高昂的问题。传统后训练方法需要大量高质量数据和计算资源,并且每次基础模型更新后都需要重新进行后训练和评估,这使得模型迭代周期缓慢,成本居高不下。现有方法难以充分利用开放权重社区中频繁更新的基础模型和指令模型检查点。

核心思路:论文的核心思路是通过权重差异迁移知识。具体来说,计算已经过指令微调的后训练模型与对应基础模型之间的权重差异(ParamΔ),然后将这个差异加到新版本的基础模型上,从而使新模型具备指令微调的能力,而无需重新进行耗时的后训练。

技术框架:ParamΔ方法的核心公式是:$Θ_{\text{Param}Δ} = Θ_\text{post} - Θ_\text{base} + Θ' ext{base}$。其中,$Θ\text{post}$是后训练模型的权重,$Θ_\text{base}$是原始基础模型的权重,$Θ' ext{base}$是更新后的基础模型的权重,$Θ{\text{Param}Δ}$是应用ParamΔ后的新模型的权重。整个流程简单直接,无需额外的训练步骤。

关键创新:最重要的技术创新点在于提出了利用权重差异进行知识迁移的思想。与传统的后训练方法相比,ParamΔ方法无需重新训练,大大降低了计算成本,并加速了模型迭代周期。它充分利用了开放权重社区中已有的资源,为模型开发提供了一种高效的途径。本质区别在于,传统方法是重新学习,而ParamΔ是直接迁移。

关键设计:ParamΔ方法的关键在于权重差异的计算和应用。论文没有涉及复杂的参数设置或网络结构调整,而是专注于如何有效地利用已有的模型权重信息。该方法对基础模型和后训练模型的架构没有特殊要求,具有较强的通用性。论文中没有明确提及损失函数,因为该方法本身不涉及训练过程。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,ParamΔ模型在Llama3、Llama3.1、Qwen和DeepSeek-distilled等模型上表现出色。例如,从70B Llama3-inst、Llama3-base、Llama3.1-base模型获得的ParamΔ模型平均达到了Llama3.1-inst模型性能的约95%。这表明ParamΔ方法能够以极低的成本实现接近传统后训练的性能水平。

🎯 应用场景

ParamΔ方法可广泛应用于大语言模型的快速迭代和定制化。开发者可以利用该方法,将已有的指令微调知识快速迁移到新版本的基础模型上,从而快速构建特定领域的定制化模型,降低开发成本,加速产品上线。该方法尤其适用于开放权重社区,可以充分利用社区中已有的资源,促进大语言模型生态的繁荣。

📄 摘要(原文)

The post-training phase of large language models is essential for enhancing capabilities such as instruction-following, reasoning, and alignment with human preferences. However, it demands extensive high-quality data and poses risks like overfitting, alongside significant computational costs due to repeated post-training and evaluation after each base model update. This paper introduces $ParamΔ$, a novel method that streamlines post-training by transferring knowledge from an existing post-trained model to a newly updated base model with ZERO additional training. By computing the difference between post-trained model weights ($Θ_\text{post}$) and base model weights ($Θ_\text{base}$), and adding this to the updated base model ($Θ'\text{base}$), we define $ParamΔ$ Model as: $Θ{\text{Param}Δ} = Θ_\text{post} - Θ_\text{base} + Θ'_\text{base}$. This approach surprisingly equips the new base model with post-trained capabilities, achieving performance comparable to direct post-training. We did analysis on LLama3, Llama3.1, Qwen, and DeepSeek-distilled models. Results indicate $ParamΔ$ Model effectively replicates traditional post-training. For example, the $ParamΔ$ Model obtained from 70B Llama3-inst, Llama3-base, Llama3.1-base models attains approximately 95\% of Llama3.1-inst model's performance on average. $ParamΔ$ brings a new perspective on how to fully leverage models in the open-weight community, where checkpoints for base and instruct models are readily available and frequently updated, by providing a cost-free framework to accelerate the iterative cycle of model development.