Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition

📄 arXiv: 2507.20997v2 📥 PDF

作者: Haris Khan, Sadia Asif, Shumaila Asif

分类: cs.LG, cs.AI

发布日期: 2025-07-28 (更新: 2025-08-07)

备注: 11 pages, 6 figures, 3 tables. Will be Submitted to ICLR 2025 for review


💡 一句话要点

提出MDM-OC框架,实现可扩展、无干扰、可逆的模型组合与持续学习

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 持续学习 模型合并 正交约束 模型解合并 灾难性遗忘 模块化AI 可逆模型

📋 核心要点

  1. 现有模型合并和持续学习方法存在任务干扰、灾难性遗忘和缺乏可逆性等问题。
  2. MDM-OC框架将任务特定模型编码为与共享基础模型的delta,并投影到正交子空间,消除冲突。
  3. 实验表明,MDM-OC在准确性、后向迁移和解合并保真度方面优于现有方法,并保持内存效率。

📝 摘要(中文)

在实际机器学习部署中,模型需要持续更新、组合,并在必要时选择性地撤销。然而,现有的模型合并和持续学习方法通常受到任务干扰、灾难性遗忘或缺乏可逆性的影响。我们提出了具有正交约束的模块化Delta合并(MDM-OC),这是一个新颖的框架,能够实现微调模型的可扩展、无干扰和可逆组合。每个特定任务的模型都被编码为与共享基础模型的delta,并投影到正交子空间以消除冲突。然后,这些投影的delta通过基于梯度的优化进行合并,形成一个统一的模型,该模型在所有任务中保持性能。我们的方法支持新模型的持续集成、用于符合GDPR等要求的结构化解合并,以及通过弹性权重巩固和合成回放实现模型稳定性。在视觉和自然语言处理基准上的大量实验表明,MDM-OC在准确性、后向迁移和解合并保真度方面优于先前的基线,同时保持了内存效率和计算上的易处理性。该框架为模块化和合规的AI系统设计提供了一个原则性的解决方案。

🔬 方法详解

问题定义:论文旨在解决模型持续更新、组合和选择性撤销的问题。现有方法在模型合并和持续学习中面临任务干扰,导致灾难性遗忘,并且缺乏模型的可逆性,难以满足合规性要求(如GDPR)。

核心思路:核心思路是将每个任务的模型表示为相对于共享基础模型的delta,并通过正交投影将这些delta映射到互不干扰的子空间。这样,合并后的模型能够保留各个任务的知识,同时避免任务间的负迁移。正交约束保证了模型的可逆性,允许选择性地移除特定任务的模型贡献。

技术框架:MDM-OC框架包含以下主要阶段:1) Delta编码:将每个任务的微调模型表示为与共享基础模型的权重差异(delta)。2) 正交投影:将每个delta投影到正交子空间,确保任务间的权重更新互不干扰。3) 模型合并:使用基于梯度的优化方法,将投影后的delta合并到统一模型中。4) 模型解合并:通过逆向正交投影,选择性地移除特定任务的模型贡献。

关键创新:最重要的创新点在于使用正交约束来实现模块化的模型合并和解合并。与现有方法相比,MDM-OC能够有效地避免任务干扰和灾难性遗忘,同时保证模型的可逆性。此外,该框架还支持持续集成新模型和结构化解合并,以满足合规性要求。

关键设计:关键设计包括:1) 正交投影矩阵的构建:使用Gram-Schmidt正交化或其他方法构建正交投影矩阵,确保delta向量投影到互不干扰的子空间。2) 梯度优化策略:使用合适的优化器(如Adam)和学习率,优化合并后的模型,使其在所有任务上都表现良好。3) 弹性权重巩固(EWC)和合成回放:可选地使用EWC或合成回放来进一步提高模型的稳定性,防止灾难性遗忘。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MDM-OC在视觉和自然语言处理任务上均优于现有基线方法。例如,在持续学习场景下,MDM-OC在准确率和后向迁移方面取得了显著提升。此外,MDM-OC在解合并保真度方面也表现出色,能够准确地恢复原始模型的性能。该框架还具有良好的内存效率和计算可扩展性。

🎯 应用场景

MDM-OC框架可应用于需要持续学习、模型组合和合规性保障的各种场景,例如:自动驾驶系统(不断集成新的驾驶策略)、医疗诊断系统(集成来自不同医院的数据和模型)、金融风控系统(根据法规变化调整模型)等。该框架能够提高AI系统的灵活性、适应性和可解释性,促进负责任的AI发展。

📄 摘要(原文)

In real-world machine learning deployments, models must be continually updated, composed, and when required, selectively undone. However, existing approaches to model merging and continual learning often suffer from task interference, catastrophic forgetting, or lack of reversibility. We propose Modular Delta Merging with Orthogonal Constraints (MDM-OC), a novel framework that enables scalable, interference-free, and reversible composition of fine-tuned models. Each task-specific model is encoded as a delta from a shared base and projected into an orthogonal subspace to eliminate conflict. These projected deltas are then merged via gradient-based optimization to form a unified model that retains performance across tasks. Our approach supports continual integration of new models, structured unmerging for compliance such as GDPR requirements, and model stability via elastic weight consolidation and synthetic replay. Extensive experiments on vision and natural language processing benchmarks demonstrate that MDM-OC outperforms prior baselines in accuracy, backward transfer, and unmerge fidelity, while remaining memory-efficient and computationally tractable. This framework offers a principled solution for modular and compliant AI system design.