Extraction of linearized models from pre-trained networks via knowledge distillation

📄 arXiv: 2604.06732v1 📥 PDF

作者: Fumito Kimura, Jun Ohkubo

分类: cs.LG

发布日期: 2026-04-08

备注: 9 pages, 5 figures


💡 一句话要点

提出基于知识蒸馏的线性化模型提取框架,提升线性模型分类精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 Koopman算子 线性化模型 神经网络 模型提取

📋 核心要点

  1. 现有硬件发展推动了对线性操作机器学习架构的需求,但构建此类架构的方法仍有待探索。
  2. 该论文结合Koopman算子理论与知识蒸馏,从预训练网络中提取线性化模型,用于分类任务。
  3. 实验结果表明,该模型在MNIST和Fashion-MNIST数据集上,分类精度和数值稳定性均优于传统方法。

📝 摘要(中文)

本文提出了一种框架,通过将Koopman算子理论与知识蒸馏相结合,从预训练神经网络中提取用于分类任务的线性化模型。该方法旨在构建仅需简单非线性预处理后即可进行线性操作的机器学习架构,以适应光子集成电路和光学设备等硬件发展趋势。在MNIST和Fashion-MNIST数据集上的数值实验表明,所提出的模型在分类精度和数值稳定性方面均优于传统的基于最小二乘的Koopman近似方法。

🔬 方法详解

问题定义:论文旨在解决如何构建仅使用线性操作的机器学习模型的问题,尤其是在硬件层面,例如光子集成电路等,更适合线性运算。现有方法,如基于最小二乘的Koopman近似,在分类精度和数值稳定性方面存在不足,限制了其应用。

核心思路:论文的核心思路是利用预训练的非线性神经网络作为“教师”模型,通过知识蒸馏的方式,训练一个线性化的“学生”模型。这个线性化模型基于Koopman算子理论,旨在学习教师模型的线性动态表示,从而在保持或提升性能的同时,简化计算复杂度。

技术框架:整体框架包含以下几个主要步骤:1. 首先,训练一个非线性神经网络作为教师模型。2. 然后,利用Koopman算子理论构建线性化模型(学生模型)。3. 使用知识蒸馏技术,让学生模型学习教师模型的输出,从而优化学生模型的参数。这个过程中,教师模型的知识被“提炼”到学生模型中,使得学生模型能够以线性方式近似教师模型的非线性行为。

关键创新:最重要的创新点在于将知识蒸馏应用于Koopman算子理论,从而能够有效地从预训练的非线性网络中提取线性化模型。与传统的Koopman近似方法相比,该方法能够更好地捕捉数据的非线性特征,并将其转化为线性表示,从而提高分类精度和数值稳定性。此外,利用预训练网络避免了从头训练线性模型的困难。

关键设计:关键设计包括:1. 教师模型的选择和训练,需要选择合适的网络结构和训练策略,以保证教师模型的性能。2. Koopman算子理论的应用,需要选择合适的观测函数和线性化方法。3. 知识蒸馏的损失函数设计,需要选择合适的损失函数来衡量学生模型和教师模型之间的差异,例如可以使用KL散度或MSE损失。4. 学生模型的结构设计,需要保证学生模型能够有效地学习教师模型的线性动态表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MNIST和Fashion-MNIST数据集上,该方法提取的线性化模型在分类精度和数值稳定性方面均优于传统的基于最小二乘的Koopman近似方法。具体的性能提升数据未知,但论文强调了该方法的一致性优越性,表明其具有较强的泛化能力。

🎯 应用场景

该研究成果可应用于对计算效率和能耗有严格要求的场景,例如边缘计算、嵌入式系统和光子计算等。通过将复杂的非线性模型转化为线性模型,可以降低计算复杂度,提高运行速度,并降低功耗。此外,该方法还有助于开发新型的基于线性运算的机器学习硬件架构。

📄 摘要(原文)

Recent developments in hardware, such as photonic integrated circuits and optical devices, are driving demand for research on constructing machine learning architectures tailored for linear operations. Hence, it is valuable to explore methods for constructing learning machines with only linear operations after simple nonlinear preprocessing. In this study, we propose a framework to extract a linearized model from a pre-trained neural network for classification tasks by integrating Koopman operator theory with knowledge distillation. Numerical demonstrations on the MNIST and the Fashion-MNIST datasets reveal that the proposed model consistently outperforms the conventional least-squares-based Koopman approximation in both classification accuracy and numerical stability.