DynaMiCS: Fine-tuning LLMs with Performance Constraints using Dynamic Mixtures

📄 arXiv: 2605.10770v1 📥 PDF

作者: Eleonora Gualdoni, Sonia Laguna, Louis Bethune, Joao Monteiro, Pierre Ablin, Marco Cuturi

分类: cs.LG

发布日期: 2026-05-11


💡 一句话要点

提出DynaMiCS动态混合优化器,通过约束优化实现大模型多领域微调中的性能平衡

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多领域微调 约束优化 动态数据混合 灾难性遗忘 模型对齐

📋 核心要点

  1. 现有数据混合策略多依赖固定启发式规则,难以在提升目标领域性能的同时,显式保障通用知识与安全等受限领域的性能。
  2. DynaMiCS将微调转化为约束优化问题,通过短期探测运行估计跨领域影响矩阵,动态计算最优数据混合权重。
  3. 实验表明,该方法在无需参考模型或手动调参的情况下,显著提升了目标领域表现,并有效满足了多项约束条件。

📝 摘要(中文)

大模型的多领域微调要求在提升目标领域性能的同时,保持通用知识、指令遵循或安全评估等受限领域的性能。现有的数据混合策略依赖于固定的启发式方法或自适应规则,无法显式地强制执行这些能力保护。本文提出了DynaMiCS,一种将多领域微调建模为约束优化问题的动态混合优化器。在每次更新时,DynaMiCS通过短期的领域特定探测运行来估计局部跨领域效应的斜率矩阵,捕捉在每个微调数据集上的训练如何影响各评估领域。这些估计值随后被用于在概率单纯形上优化混合权重,目标是在将受限领域损失保持在参考水平以下的同时,提高目标领域的性能。在多种目标和受限领域场景下,DynaMiCS相比固定混合基线,以更低的计算成本实现了更强的目标领域提升和更高的约束满足度,且无需参考模型、逐样本评分或手动调整权重。

🔬 方法详解

问题定义:在大模型多领域微调中,如何在提升目标任务性能的同时,防止模型在通用能力、指令遵循或安全性等关键领域出现“灾难性遗忘”或性能退化,是当前面临的核心挑战。

核心思路:论文将微调过程建模为约束优化问题,通过动态调整不同数据集的混合权重,确保在满足受限领域损失约束的前提下,最大化目标领域的性能增益。

技术框架:DynaMiCS在训练迭代中引入探测阶段,通过对各领域数据进行短期的梯度更新,估计出“斜率矩阵”,即训练数据对各评估领域损失的影响程度。随后,利用这些估计值在概率单纯形上求解最优权重,以指导后续的参数更新。

关键创新:该方法的核心创新在于引入了基于局部跨领域效应估计的动态权重分配机制,摆脱了对预设启发式规则或昂贵的逐样本评分机制的依赖,实现了对模型行为的显式控制。

关键设计:关键技术细节包括:利用一阶导数信息构建局部线性化模型来预测损失变化;通过在概率单纯形上进行凸优化求解权重,确保混合权重的有效性;以及通过短期的探测运行(Probing runs)实现对动态环境的实时感知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DynaMiCS在多种多领域微调任务中表现优异,相比固定混合基线(Fixed-mixture baselines),在提升目标领域性能的同时,显著降低了受限领域的性能损失。该方法无需额外的参考模型或复杂的逐样本评分,计算开销更低,且在约束满足度指标上表现出更强的鲁棒性,证明了其在复杂多目标优化场景下的有效性。

🎯 应用场景

该技术适用于需要平衡多任务性能的大模型微调场景,如企业级垂直领域模型开发、安全对齐微调以及多语言能力增强。它能有效降低模型在特定领域微调时的“能力漂移”风险,减少人工调参成本,在保障模型通用性的前提下实现特定任务性能的最优化,具有极高的工业应用价值。

📄 摘要(原文)

Multi-domain fine-tuning of large language models requires improving performance on target domains while preserving performance on constrained domains, such as general knowledge, instruction following, or safety evaluations. Existing data mixing strategies rely on fixed heuristics or adaptive rules that cannot explicitly enforce preservation of such capabilities. We propose DynaMiCS, a dynamic mixture optimizer that casts multi-domain fine-tuning as a constrained optimization problem. At each update, DynaMiCS performs short domain-specific probing runs to estimate a slope matrix of local cross-domain effects, capturing how training on each fine-tuning dataset affects each evaluation domain. These estimates are then used to compute mixture weights through optimization over the probability simplex, with the objective of improving target-domain performance while keeping constrained-domain losses below reference levels. Across multi-domain fine-tuning scenarios with varying numbers of target and constrained domains, DynaMiCS achieves stronger target-domain improvements and higher constraint satisfaction than fixed-mixture baselines, at lower computational cost and without reference models, per-example scoring, or manually tuned mixture weights.