Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging

📄 arXiv: 2606.01717v1 📥 PDF

作者: Minsik Choi, Geewook Kim

分类: cs.LG

发布日期: 2026-06-01

备注: 32 pages, 5 figures. Accepted for publication at ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出MERIT:一种去中心化的指令微调方法,通过冲突感知的数据分割和权重合并提升模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令微调 去中心化学习 权重合并 梯度冲突 多模态学习

📋 核心要点

  1. 现有指令微调方法在处理异构数据集时,面临梯度干扰和高带宽同步的挑战,限制了模型性能的提升。
  2. MERIT通过独立训练数据集的不同部分,并在参数空间中进行权重合并,从而避免了梯度干扰和高带宽通信。
  3. 实验结果表明,MERIT在多模态和文本指令微调任务上均取得了显著的性能提升,且具有良好的可扩展性。

📝 摘要(中文)

指令微调旨在使大型语言模型(包括多模态模型)与多样化的用户意图对齐。然而,扩展到异构混合数据集面临梯度干扰和高带宽同步的挑战。本文提出了一种新的思路,即独立训练混合数据集的不同部分,然后在参数空间中进行调和。基于共享平坦盆地内的局部二次理论,本文推导出三个结果:权重合并产生曲率加权的方差减少;PCA对齐的冲突分割最大化了沿高曲率方向的增益;合并还充当具有隐式范数正则化的频谱滤波。这些结果直接促成了MERIT,一种去中心化的、可合并的指令微调流程,它估计数据集级别的梯度冲突,沿顶部PCA冲突轴分割混合数据集,独立微调每个分区(无需分区间通信),并通过token加权平均进行一次合并。在具有136个Vision-FLAN任务的Qwen2.5-VL-3B模型上,MERIT将8个基准测试的平均值从54.3(联合训练)提高到57.0。相同的方案可以扩展到具有1.6M示例和176个来源混合数据集的7B模型,在最小的成本开销下匹配或超过集中式联合训练,并迁移到纯文本FLAN任务。代码已开源。

🔬 方法详解

问题定义:现有指令微调方法在处理大规模异构数据集时,由于不同任务之间的梯度冲突,导致模型训练不稳定,性能提升受限。同时,集中式训练需要频繁的参数同步,对带宽要求高,难以扩展到更大规模的数据集和模型。

核心思路:MERIT的核心思路是将大规模异构数据集分割成多个冲突较小的子集,独立训练每个子集,然后在参数空间中进行权重合并。通过这种方式,可以减少梯度冲突,降低通信成本,提高训练效率。权重合并基于局部二次理论,旨在减少方差并进行谱滤波。

技术框架:MERIT包含以下几个主要阶段:1) 冲突估计:计算数据集级别梯度冲突,使用PCA分析冲突方向。2) 数据分割:沿顶部PCA冲突轴分割数据集,形成多个子集。3) 独立训练:在每个子集上独立进行指令微调,无需分区间通信。4) 权重合并:使用token加权平均方法合并各个子模型的权重。

关键创新:MERIT的关键创新在于:1) 提出了一种去中心化的指令微调框架,有效解决了梯度冲突和高带宽通信的难题。2) 基于局部二次理论,提出了PCA对齐的冲突分割方法,最大化了权重合并的增益。3) 权重合并过程具有谱滤波和隐式范数正则化的作用,有助于提高模型的泛化能力。

关键设计:在数据分割阶段,使用PCA分析数据集级别的梯度冲突,选择顶部冲突轴进行分割。在权重合并阶段,使用token加权平均方法,根据每个子集在原始数据集中的token数量进行加权。具体的损失函数和网络结构与基线模型保持一致,以保证公平比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Qwen2.5-VL-3B模型上,使用136个Vision-FLAN任务进行实验,MERIT将8个基准测试的平均值从集中式联合训练的54.3提高到57.0。在具有1.6M示例和176个来源混合数据集的7B模型上,MERIT在最小的成本开销下匹配或超过了集中式联合训练的性能,并且成功迁移到纯文本FLAN任务。

🎯 应用场景

MERIT可应用于各种需要指令微调的大型语言模型,尤其是在处理包含多种模态和任务的异构数据集时。例如,可以用于训练具有更强泛化能力的多模态助手,或者用于构建能够处理各种自然语言任务的通用语言模型。该方法降低了训练成本,加速了模型迭代。

📄 摘要(原文)

Instruction tuning aligns large language models, including multimodal ones, with diverse user intents, but scaling to heterogeneous mixtures is hindered by gradient interference and bandwidth-heavy synchronization. We ask whether these two bottlenecks can be addressed jointly by training parts of the mixture independently and reconciling them once in parameter space. We develop a local quadratic theory inside a shared flat basin that yields three results: weight merging produces a curvature-weighted variance reduction; PCA-aligned conflict splitting maximizes this gain along high-curvature directions; and merging additionally acts as spectral filtering with implicit norm regularization. These results directly motivate MERIT, a decentralized merge-ready instruction-tuning pipeline that estimates dataset-level gradient conflicts, partitions the mixture along the top PCA conflict axes, fine-tunes each partition independently with no inter-partition communication, and merges once via token-weighted averaging. On Qwen2.5-VL-3B with 136 Vision-FLAN tasks, MERIT improves the 8-benchmark average from 54.3 (joint training) to 57.0. The same recipe scales to a 7B model on a 1.6M-example, 176-source mixture -- matching or exceeding centralized joint training with minimal cost overhead -- and transfers to text-only FLAN. Our code is available at https://github.com/naver-ai/merit.