Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging

作者: Minsik Choi, Geewook Kim

分类: cs.LG

发布日期: 2026-06-01

备注: 32 pages, 5 figures. Accepted for publication at ICML 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出MERIT：一种去中心化的指令微调方法，通过冲突感知的数据分割和权重合并提升模型性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令微调 去中心化学习 权重合并 梯度冲突 多模态学习

📋 核心要点

现有指令微调方法在处理异构数据集时，面临梯度干扰和高带宽同步的挑战，限制了模型性能的提升。
MERIT通过独立训练数据集的不同部分，并在参数空间中进行权重合并，从而避免了梯度干扰和高带宽通信。
实验结果表明，MERIT在多模态和文本指令微调任务上均取得了显著的性能提升，且具有良好的可扩展性。

📝 摘要（中文）

指令微调旨在使大型语言模型（包括多模态模型）与多样化的用户意图对齐。然而，扩展到异构混合数据集面临梯度干扰和高带宽同步的挑战。本文提出了一种新的思路，即独立训练混合数据集的不同部分，然后在参数空间中进行调和。基于共享平坦盆地内的局部二次理论，本文推导出三个结果：权重合并产生曲率加权的方差减少；PCA对齐的冲突分割最大化了沿高曲率方向的增益；合并还充当具有隐式范数正则化的频谱滤波。这些结果直接促成了MERIT，一种去中心化的、可合并的指令微调流程，它估计数据集级别的梯度冲突，沿顶部PCA冲突轴分割混合数据集，独立微调每个分区（无需分区间通信），并通过token加权平均进行一次合并。在具有136个Vision-FLAN任务的Qwen2.5-VL-3B模型上，MERIT将8个基准测试的平均值从54.3（联合训练）提高到57.0。相同的方案可以扩展到具有1.6M示例和176个来源混合数据集的7B模型，在最小的成本开销下匹配或超过集中式联合训练，并迁移到纯文本FLAN任务。代码已开源。

🔬 方法详解

问题定义：现有指令微调方法在处理大规模异构数据集时，由于不同任务之间的梯度冲突，导致模型训练不稳定，性能提升受限。同时，集中式训练需要频繁的参数同步，对带宽要求高，难以扩展到更大规模的数据集和模型。

核心思路：MERIT的核心思路是将大规模异构数据集分割成多个冲突较小的子集，独立训练每个子集，然后在参数空间中进行权重合并。通过这种方式，可以减少梯度冲突，降低通信成本，提高训练效率。权重合并基于局部二次理论，旨在减少方差并进行谱滤波。

技术框架：MERIT包含以下几个主要阶段：1) 冲突估计：计算数据集级别梯度冲突，使用PCA分析冲突方向。2) 数据分割：沿顶部PCA冲突轴分割数据集，形成多个子集。3) 独立训练：在每个子集上独立进行指令微调，无需分区间通信。4) 权重合并：使用token加权平均方法合并各个子模型的权重。

关键创新：MERIT的关键创新在于：1) 提出了一种去中心化的指令微调框架，有效解决了梯度冲突和高带宽通信的难题。2) 基于局部二次理论，提出了PCA对齐的冲突分割方法，最大化了权重合并的增益。3) 权重合并过程具有谱滤波和隐式范数正则化的作用，有助于提高模型的泛化能力。

关键设计：在数据分割阶段，使用PCA分析数据集级别的梯度冲突，选择顶部冲突轴进行分割。在权重合并阶段，使用token加权平均方法，根据每个子集在原始数据集中的token数量进行加权。具体的损失函数和网络结构与基线模型保持一致，以保证公平比较。

🖼️ 关键图片

📊 实验亮点

在Qwen2.5-VL-3B模型上，使用136个Vision-FLAN任务进行实验，MERIT将8个基准测试的平均值从集中式联合训练的54.3提高到57.0。在具有1.6M示例和176个来源混合数据集的7B模型上，MERIT在最小的成本开销下匹配或超过了集中式联合训练的性能，并且成功迁移到纯文本FLAN任务。

🎯 应用场景

MERIT可应用于各种需要指令微调的大型语言模型，尤其是在处理包含多种模态和任务的异构数据集时。例如，可以用于训练具有更强泛化能力的多模态助手，或者用于构建能够处理各种自然语言任务的通用语言模型。该方法降低了训练成本，加速了模型迭代。

📄 摘要（原文）

Instruction tuning aligns large language models, including multimodal ones, with diverse user intents, but scaling to heterogeneous mixtures is hindered by gradient interference and bandwidth-heavy synchronization. We ask whether these two bottlenecks can be addressed jointly by training parts of the mixture independently and reconciling them once in parameter space. We develop a local quadratic theory inside a shared flat basin that yields three results: weight merging produces a curvature-weighted variance reduction; PCA-aligned conflict splitting maximizes this gain along high-curvature directions; and merging additionally acts as spectral filtering with implicit norm regularization. These results directly motivate MERIT, a decentralized merge-ready instruction-tuning pipeline that estimates dataset-level gradient conflicts, partitions the mixture along the top PCA conflict axes, fine-tunes each partition independently with no inter-partition communication, and merges once via token-weighted averaging. On Qwen2.5-VL-3B with 136 Vision-FLAN tasks, MERIT improves the 8-benchmark average from 54.3 (joint training) to 57.0. The same recipe scales to a 7B model on a 1.6M-example, 176-source mixture -- matching or exceeding centralized joint training with minimal cost overhead -- and transfers to text-only FLAN. Our code is available at https://github.com/naver-ai/merit.

Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理