Crafting Reversible SFT Behaviors in Large Language Models

📄 arXiv: 2605.06632v1 📥 PDF

作者: Yuping Lin, Pengfei He, Yue Xing, Yingqian Cui, Jiayuan Ding, Subhabrata Mukherjee, Hui Liu, Zhen Xiang

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出LCDD与SFT-Eraser,实现大语言模型SFT行为的可逆稀疏化控制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 监督微调 行为控制 稀疏化 可逆性 因果关系 安全对齐

📋 核心要点

  1. 现有方法难以对SFT诱导的行为进行选择性控制,因为其相关性不代表因果必然性。
  2. 提出LCDD方法构建行为载体,将SFT行为压缩到稀疏子网络,并用SFT-Eraser逆转。
  3. 实验表明,LCDD产生的稀疏载体能有效保留目标行为,并能被SFT-Eraser成功逆转。

📝 摘要(中文)

监督微调(SFT)赋予大型语言模型新的行为,但并未对这些行为在模型中的分布施加结构性约束。现有的行为解释方法,如电路归因,只能事后识别与SFT诱导行为相关的稀疏子网络。然而,这种相关性并不意味着因果必然性,限制了在推理时选择性控制SFT诱导行为的能力。本文探索了一种替代方案:能否将SFT诱导的行为刻意压缩到一个稀疏的、机制上必要的子网络(称为载体)中,并在不修改权重的情况下在推理时保持可控?为此,本文提出了(a) 损失约束双下降(LCDD),通过在显式效用预算下联合优化路由掩码和模型权重来构建这种载体;以及(b) SFT-Eraser,一种通过在提取的载体通道上进行激活匹配优化的软提示,以逆转SFT诱导的行为。在多个模型系列的安全性、固定响应和风格行为上,LCDD产生了稀疏载体,这些载体保留了目标行为,同时在被SFT-Eraser触发时能够实现强大的逆转。消融实验进一步证实,稀疏结构是逆转的关键前提:相同的触发优化在标准SFT模型上失败,证实了结构而非触发设计是有效因素。这些结果直接证明了学习到的载体对于行为是因果必要的,为系统地定位和选择性地抑制已部署模型中SFT诱导的行为指明了一个新的方向。

🔬 方法详解

问题定义:现有方法无法在大型语言模型中对监督微调(SFT)引入的行为进行精细控制。虽然可以通过电路归因等方法识别与特定行为相关的子网络,但这些子网络与行为之间仅存在相关性,而非因果关系。因此,无法通过直接操作这些子网络来可靠地控制或消除相应的行为。

核心思路:本文的核心思路是将SFT引入的行为压缩到一个稀疏且机制上必要的子网络中,称为“载体”。通过构建这样的载体,可以更容易地理解和控制SFT行为。同时,设计一种方法来逆转这些行为,进一步验证载体的因果必要性。

技术框架:该方法包含两个主要组成部分:Loss-Constrained Dual Descent (LCDD) 和 SFT-Eraser。LCDD用于构建稀疏的行为载体,而SFT-Eraser用于逆转SFT引入的行为。整体流程是先使用LCDD训练模型,使其将目标行为压缩到稀疏子网络中,然后使用SFT-Eraser生成一个软提示,该提示能够抵消载体的影响,从而逆转相应的行为。

关键创新:该方法最重要的创新在于提出了“行为载体”的概念,并设计了LCDD算法来构建这种载体。与以往方法不同,LCDD旨在创建一个因果上与特定行为相关的稀疏子网络,从而实现对SFT行为的精确控制。此外,SFT-Eraser的引入提供了一种验证载体因果性的方法。

关键设计:LCDD的关键设计在于联合优化路由掩码和模型权重,同时施加损失约束。具体来说,LCDD使用一个效用预算来限制路由掩码的稀疏性,并使用一个损失函数来确保模型在保持目标行为的同时,尽可能地将行为压缩到稀疏子网络中。SFT-Eraser的关键设计在于通过激活匹配来优化软提示,使其能够抵消载体通道的激活,从而逆转SFT行为。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,LCDD能够有效地构建稀疏的行为载体,并在多个模型和任务上实现了强大的行为逆转。例如,在安全性任务中,LCDD能够将有害行为压缩到稀疏子网络中,并使用SFT-Eraser成功地逆转这些行为。消融实验进一步证实,稀疏结构是行为逆转的关键因素。

🎯 应用场景

该研究成果可应用于安全对齐、模型编辑和行为干预等领域。例如,可以利用该方法构建安全载体,将模型的有害行为限制在可控的范围内,并使用SFT-Eraser来消除这些行为。此外,该方法还可以用于模型个性化,通过构建风格载体来控制模型的输出风格。

📄 摘要(原文)

Supervised fine-tuning (SFT) induces new behaviors in large language models, yet imposes no structural constraint on how these behaviors are distributed within the model. Existing behavior interpretation methods, such as circuit attribution approaches, identify sparse subnetworks correlated with SFT-induced behaviors post-hoc. However, such correlations do not imply causal necessity, limiting the ability to selectively control SFT-induced behaviors at inference time. We pursue an alternative by asking: can an SFT-induced behavior be deliberately compressed into a sparse, mechanistically necessary subnetwork, termed a carrier, while remaining controllable at inference time without weight modification? We propose (a) Loss-Constrained Dual Descent (LCDD), which constructs such carriers by jointly optimizing routing masks and model weights under an explicit utility budget, and (b) SFT-Eraser, a soft prompt optimized via activation matching on extracted carrier channels, to reverse the SFT-induced behavior. Across safety, fixed-response, and style behaviors on multiple model families, LCDD yields sparse carriers that preserve target behaviors while enabling strong reversion when triggered by SFT-Eraser. Ablations further establish that the sparse structure is the key precondition for reversal: the same trigger optimization fails on standard SFT models, confirming that structure rather than trigger design is the operative factor. These results provide direct evidence that the learned carriers are causally necessary for the behaviors, pointing to a new direction for systematically localizing and selectively suppressing SFT-induced behaviors in deployed models.