Subspace Control: Turning Constrained Model Steering into Controllable Spectral Optimization

📄 arXiv: 2604.04231 📥 PDF

作者: Yancheng Huang, Changsheng Wang, Chongyu Fan, Yicheng Lang, Bingqi Shang, Yang Zhang, Mingyi Hong, Qing Qu, Alvaro Velasquez, Sijia Liu

分类: cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出SIFT,通过子空间控制解决模型微调中的目标冲突问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 子空间控制 模型微调 约束优化 频谱分析 梯度正交化

📋 核心要点

  1. 现有模型微调方法在满足约束条件时,容易与主要目标产生冲突,导致性能下降或不稳定。
  2. 论文提出子空间控制框架SIFT,通过正交化合并子空间来消除频谱干扰,实现可控的模型更新。
  3. 实验表明,SIFT在机器遗忘、安全对齐等任务上,相比现有方法取得了显著且稳定的性能提升。

📝 摘要(中文)

大型语言模型等基础模型功能强大,但在部署前通常需要定制以满足安全、隐私和特定任务等实际约束,从而导致模型引导和适应的“约束”优化问题。然而,由于优化过程中主要目标和约束目标之间的干扰,解决此类问题在很大程度上尚未被探索,并且极具挑战性。本文提出了一个用于约束模型训练的子空间控制框架。具体来说,(i) 我们首先从模型合并的角度分析了跨任务频谱干扰是如何产生的,并表明可以通过正交化合并子空间的一次性解决方案来解决;(ii) 我们建立了该解决方案与频谱优化器 Muon 中梯度正交化之间的联系;(iii) 在这些见解的基础上,我们引入了 SIFT(无频谱干扰训练),它利用定位方案在优化过程中选择性地干预,从而实现可控的更新,以减轻目标-约束冲突。我们在四个代表性应用中评估了 SIFT:(a) 机器遗忘,(b) 安全对齐,(c) 文本到语音的适应,(d) 幻觉缓解。与基于控制和无控制的基线相比,SIFT 在所有任务中始终如一地实现了显着且稳健的性能改进。

🔬 方法详解

问题定义:论文旨在解决模型微调过程中,由于需要满足额外的约束条件(如安全性、隐私性等),导致主要任务目标与约束目标之间产生冲突的问题。现有的微调方法通常难以在满足约束的同时,保持模型在主要任务上的性能,甚至可能出现性能下降的情况。这种冲突源于模型参数空间中不同任务目标之间的干扰。

核心思路:论文的核心思路是通过控制模型参数更新的子空间,来消除或减少不同任务目标之间的干扰。具体来说,论文受到模型合并的启发,认为不同任务对应的模型参数位于不同的子空间中,如果这些子空间不正交,就会产生干扰。因此,论文提出通过正交化这些子空间,来解耦不同任务目标,从而实现可控的模型更新。

技术框架:SIFT (Spectral Interference-Free Training) 的整体框架包含以下几个关键步骤: 1. 频谱分析:对模型参数进行频谱分析,识别不同任务目标对应的子空间。 2. 子空间正交化:通过梯度正交化等方法,使得不同任务目标对应的子空间尽可能正交。 3. 选择性干预:在模型训练过程中,根据任务需求,选择性地对特定子空间进行更新,避免对其他子空间产生干扰。 4. 模型更新:根据选择性干预的结果,更新模型参数。

关键创新:论文最重要的技术创新点在于提出了子空间控制的思想,并将其应用于模型微调中。与现有方法相比,SIFT 能够更精细地控制模型参数的更新,从而避免了不同任务目标之间的冲突。此外,论文还建立了子空间正交化与梯度正交化之间的联系,为 SIFT 的实现提供了理论基础。

关键设计:SIFT 的关键设计包括: 1. 定位方案:用于识别不同任务目标对应的子空间,例如使用频谱分析或模型合并等方法。 2. 梯度正交化:用于正交化不同任务目标对应的子空间,例如使用 Muon 优化器。 3. 选择性干预策略:用于控制模型参数的更新,例如只更新与特定任务相关的子空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SIFT 在机器遗忘、安全对齐、文本到语音适应和幻觉缓解四个任务上均取得了显著的性能提升。例如,在机器遗忘任务中,SIFT 能够更有效地移除模型中的特定信息,同时保持模型在其他任务上的性能。在安全对齐任务中,SIFT 能够更好地约束模型的输出,使其符合安全规范。相比于基线方法,SIFT 在各项指标上均有明显优势。

🎯 应用场景

该研究成果可广泛应用于需要对大型模型进行定制化微调的场景,例如:安全对齐,确保模型输出符合安全规范;机器遗忘,从模型中移除特定信息;文本到语音的个性化,使模型适应特定说话人的声音;幻觉缓解,减少模型生成不真实信息的可能性。这些应用场景都对模型的约束控制提出了更高的要求。

📄 摘要(原文)

Foundation models, such as large language models (LLMs), are powerful but often require customization before deployment to satisfy practical constraints such as safety, privacy, and task-specific requirements, leading to "constrained" optimization problems for model steering and adaptation. However, solving such problems remains largely underexplored and is particularly challenging due to interference between the primary objective and constraint objectives during optimization. In this paper, we propose a subspace control framework for constrained model training. Specifically, (i) we first analyze, from a model merging perspective, how spectral cross-task interference arises and show that it can be resolved via a one-shot solution that orthogonalizes the merged subspace; (ii) we establish a connection between this solution and gradient orthogonalization in the spectral optimizer Muon; and (iii) building on these insights, we introduce SIFT (spectral interference-free training), which leverages a localization scheme to selectively intervene during optimization, enabling controllable updates that mitigate objective-constraint conflicts. We evaluate SIFT across four representative applications: (a) machine unlearning, (b) safety alignment, (c) text-to-speech adaptation, and (d) hallucination mitigation. Compared to both control-based and control-free baselines, SIFT consistently achieves substantial and robust performance improvements across all tasks. Code is available atthis https URL.