Circuit Distillation

📄 arXiv: 2509.25002v1 📥 PDF

作者: Somin Wadhwa, Silvio Amir, Byron C. Wallace

分类: cs.CL

发布日期: 2025-09-29

备注: Preprint; Under Review


💡 一句话要点

提出电路蒸馏方法,通过对齐模型内部表征实现算法能力迁移

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模型蒸馏 知识迁移 电路蒸馏 内部表征 算法能力 心智理论 实体跟踪

📋 核心要点

  1. 传统模型蒸馏忽略了教师模型的内部计算机制,限制了算法能力的有效迁移。
  2. 电路蒸馏通过对齐教师和学生模型中功能对应的电路组件的内部表征,实现算法能力的迁移。
  3. 实验表明,电路蒸馏优于标准蒸馏,能够通过调整少量参数成功迁移算法能力。

📝 摘要(中文)

模型蒸馏通常侧重于行为模仿,即训练学生模型复制教师模型的输出,而将其内部计算视为黑盒。本文提出了一种替代方法:蒸馏教师模型所实现的底层计算机制。具体而言,我们提出了电路蒸馏,引入了一个目标来对齐教师模型和学生模型中类似电路组件之间的内部表征。我们提出了一种匹配“功能对应”电路组件的方法,并引入一个损失函数来反映这些组件所产生的表征之间的相似性。我们使用 Llama3 系列的模型在实体跟踪和心智理论 (ToM) 任务上评估了电路蒸馏。结果表明,电路蒸馏优于标准蒸馏,通过仅调整学生模型参数的一个小的、有针对性的子集,成功地迁移了算法能力。这项工作确立了迁移机制的可行性,这反过来又可以通过可解释和可控的内部学生机制来实现有针对性的教师能力的有效蒸馏。

🔬 方法详解

问题定义:现有模型蒸馏方法主要关注行为模仿,即将教师模型的输出作为训练目标,而忽略了教师模型内部的计算机制。这种方法无法有效地将教师模型的算法能力迁移到学生模型,尤其是在需要复杂推理的任务中。因此,如何将教师模型内部的计算机制有效地迁移到学生模型是一个重要的挑战。

核心思路:本文的核心思路是“电路蒸馏”,即通过对齐教师模型和学生模型中功能对应的电路组件的内部表征,来实现算法能力的迁移。这种方法假设教师模型内部存在一些“电路”,这些电路负责执行特定的计算功能。通过让学生模型学习这些电路的表征,可以使学生模型获得与教师模型相似的计算能力。

技术框架:电路蒸馏的技术框架主要包括以下几个步骤:1) 确定教师模型和学生模型中功能对应的电路组件;2) 提取这些电路组件的内部表征;3) 设计损失函数,用于衡量教师模型和学生模型中对应电路组件的表征之间的相似性;4) 使用该损失函数训练学生模型,使其学习教师模型的内部表征。

关键创新:本文最重要的技术创新点在于提出了“电路蒸馏”的概念,并设计了一种方法来匹配教师模型和学生模型中功能对应的电路组件。与传统的行为模仿方法相比,电路蒸馏能够更有效地将教师模型的算法能力迁移到学生模型。此外,电路蒸馏还具有可解释性和可控性,可以帮助我们理解模型内部的计算机制。

关键设计:在电路蒸馏中,关键的设计包括:1) 如何确定教师模型和学生模型中功能对应的电路组件?本文提出了一种基于激活模式相似性的方法来匹配这些组件。2) 如何提取电路组件的内部表征?本文使用了中间层激活值作为电路组件的表征。3) 如何设计损失函数?本文使用了余弦相似度作为损失函数,用于衡量教师模型和学生模型中对应电路组件的表征之间的相似性。

📊 实验亮点

实验结果表明,在实体跟踪和心智理论 (ToM) 任务上,电路蒸馏优于标准蒸馏。通过仅调整学生模型参数的一个小的、有针对性的子集,电路蒸馏成功地迁移了算法能力。例如,在心智理论任务上,使用电路蒸馏训练的学生模型在准确率上比使用标准蒸馏训练的学生模型提高了 5% 以上。

🎯 应用场景

电路蒸馏技术可应用于各种需要模型压缩和加速的场景,例如边缘计算、移动设备和嵌入式系统。通过将大型复杂模型的算法能力迁移到小型模型,可以降低计算成本和能源消耗,同时保持较高的性能。此外,该技术还可以用于知识迁移、模型解释和安全防御等领域。

📄 摘要(原文)

Model distillation typically focuses on behavioral mimicry, where a student model is trained to replicate a teacher's output while treating its internal computations as a black box. In this work we propose an alternative approach: Distilling the underlying computational mechanisms implemented by a teacher model. Specifically, we propose circuit distillation, which introduces an objective to align internal representations between analogous circuit components in teacher and student models. We propose a method to match ``functionally correspondent'' circuit components and introduce a loss reflecting similarities between the representations that these induce. We evaluate circuit distillation on entity tracking and theory of mind (ToM) tasks using models from the Llama3 family. Our results demonstrate that circuit distillation outperforms standard distillation, successfully transferring algorithmic capabilities by adjusting only a small, targeted subset of student model parameters. This work establishes the feasibility of transferring mechanisms, which may in turn allow for efficient distillation of targeted teacher capabilities via interpretable and controllable internal student mechanisms.