Decomposing Task Vectors for Refined Model Editing

📄 arXiv: 2512.22511v1 📥 PDF

作者: Hamed Damirchi, Ehsan Abbasnejad, Zhen Zhang, Javen Shi

分类: cs.LG

发布日期: 2025-12-27

备注: 16 pages


💡 一句话要点

提出任务向量分解方法,实现对预训练模型行为的精确控制与编辑

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 任务向量 模型编辑 预训练模型 知识分解 不变子空间 多任务学习 风格迁移

📋 核心要点

  1. 现有任务向量方法在组合不同行为时,由于概念重叠,容易产生干扰,导致结果不可预测。
  2. 该论文提出一种任务向量分解方法,将任务向量分解为共享知识和独特信息两部分,从而实现更精确的概念控制。
  3. 实验表明,该方法在图像分类、扩散模型和语言模型等领域均取得了显著效果,例如降低了语言模型的毒性。

📝 摘要(中文)

大型预训练模型已经改变了机器学习领域,但如何有效地调整这些模型以展现精确的、概念特定的行为仍然是一个重大挑战。任务向量(定义为微调后模型参数与预训练模型参数之差)提供了一种引导神经网络朝着期望行为发展的机制。这催生了大量专门用于特定行为的任务向量库。这些任务向量的算术运算允许无缝地组合期望的行为,而无需大型数据集。然而,这些向量通常包含重叠的概念,这些概念在算术运算期间会相互干扰,导致不可预测的结果。我们提出了一种原则性的分解方法,将每个任务向量分解为两个组成部分:一个捕获多个任务向量之间的共享知识,另一个隔离每个特定任务的独特信息。通过识别投影中的不变子空间,我们的方法能够更精确地控制概念操作,而不会无意中放大或缩小其他行为。我们通过三个领域证明了我们分解方法的有效性:通过使用共享组件作为额外的任务向量,将图像分类中的多任务合并提高了 5%;通过仅混合独特组件,在扩散模型中实现干净的风格混合,而不会降低生成质量;通过否定隔离到独特组件的毒性信息,在语言模型中实现了 47% 的毒性降低,同时保持了通用知识任务的性能。我们的方法为理解和控制任务向量算术提供了一个新的框架,解决了模型编辑操作中的基本限制。

🔬 方法详解

问题定义:现有方法在利用任务向量进行模型编辑时,由于不同任务向量之间存在概念重叠,直接进行算术运算(如加权平均)会导致意想不到的副作用,例如放大或抑制其他不相关的行为。因此,如何精确地控制模型行为,避免概念间的相互干扰,是一个亟待解决的问题。

核心思路:论文的核心思路是将每个任务向量分解为两个正交的组成部分:共享知识部分和独特信息部分。共享知识部分代表多个任务向量共有的信息,而独特信息部分则代表每个任务向量独有的信息。通过这种分解,可以更有针对性地操作模型行为,避免不必要的干扰。

技术框架:该方法首先收集一组相关的任务向量。然后,通过寻找这些任务向量投影中的不变子空间,来识别共享知识部分。具体来说,论文使用主成分分析(PCA)或类似的技术来找到这些不变子空间。最后,将每个任务向量投影到这些不变子空间上,得到共享知识部分,剩余部分则为独特信息部分。整体流程包括任务向量收集、不变子空间识别、任务向量分解三个主要阶段。

关键创新:该方法最重要的创新点在于提出了任务向量分解的概念,并提供了一种基于不变子空间识别的分解方法。与现有方法直接对任务向量进行算术运算不同,该方法首先将任务向量分解为共享和独特两部分,然后分别对这两部分进行操作,从而实现了更精细的模型行为控制。

关键设计:关键设计包括:1) 如何选择合适的任务向量集合;2) 如何有效地识别不变子空间(例如,选择合适的PCA主成分数量);3) 如何利用分解后的共享和独特信息部分进行模型编辑(例如,如何加权组合这些部分)。论文可能还涉及损失函数的设计,以确保分解后的向量能够有效地表示共享和独特信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个领域均取得了显著的性能提升。在图像分类中,使用共享组件作为额外的任务向量,多任务合并性能提高了5%。在扩散模型中,仅混合独特组件,实现了干净的风格混合,且没有降低生成质量。在语言模型中,通过否定独特组件中的毒性信息,毒性降低了47%,同时保持了通用知识任务的性能。

🎯 应用场景

该研究成果可广泛应用于预训练模型的微调和编辑,例如,可以用于安全地组合不同模型的知识,避免模型产生有害或不期望的行为。在内容生成领域,可以用于控制生成内容的风格和属性,例如,生成特定风格的图像或文本,同时避免生成有害内容。此外,该方法还可以用于个性化推荐系统,根据用户的偏好定制推荐结果。

📄 摘要(原文)

Large pre-trained models have transformed machine learning, yet adapting these models effectively to exhibit precise, concept-specific behaviors remains a significant challenge. Task vectors, defined as the difference between fine-tuned and pre-trained model parameters, provide a mechanism for steering neural networks toward desired behaviors. This has given rise to large repositories dedicated to task vectors tailored for specific behaviors. The arithmetic operation of these task vectors allows for the seamless combination of desired behaviors without the need for large datasets. However, these vectors often contain overlapping concepts that can interfere with each other during arithmetic operations, leading to unpredictable outcomes. We propose a principled decomposition method that separates each task vector into two components: one capturing shared knowledge across multiple task vectors, and another isolating information unique to each specific task. By identifying invariant subspaces across projections, our approach enables more precise control over concept manipulation without unintended amplification or diminution of other behaviors. We demonstrate the effectiveness of our decomposition method across three domains: improving multi-task merging in image classification by 5% using shared components as additional task vectors, enabling clean style mixing in diffusion models without generation degradation by mixing only the unique components, and achieving 47% toxicity reduction in language models while preserving performance on general knowledge tasks by negating the toxic information isolated to the unique component. Our approach provides a new framework for understanding and controlling task vector arithmetic, addressing fundamental limitations in model editing operations.