Photonic Quantum-Enhanced Knowledge Distillation

📄 arXiv: 2603.14898v1 📥 PDF

作者: Kuan-Cheng Chen, Shang Yu, Chen-Yu Liu, Samuel Yen-Chi Chen, Huan-Hsin Tseng, Yen Jui Chang, Wei-Hao Huang, Felix Burt, Esperanza Cuenca Gomez, Zohim Chandani, William Clements, Ian Walmsley, Kin K. Leung

分类: quant-ph, cs.ET, cs.LG

发布日期: 2026-03-16


💡 一句话要点

提出光子量子增强知识蒸馏(PQKD)框架,利用光子电路提升模型压缩性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 光子量子计算 模型压缩 硬件加速 随机性 字典卷积

📋 核心要点

  1. 现有知识蒸馏方法依赖于纯粹的软件优化,缺乏硬件层面的随机性和可控性,限制了模型压缩的效率和泛化能力。
  2. PQKD利用光子量子处理器的固有随机性,生成条件信号来引导学生网络的学习,实现硬件辅助的知识蒸馏,提升模型压缩性能。
  3. 实验表明,PQKD在多个数据集上实现了可控的压缩-精度平衡,并在有限采样条件下表现出良好的鲁棒性,验证了其有效性。

📝 摘要(中文)

本文提出了一种光子量子增强知识蒸馏(PQKD)的混合量子光子-经典框架。该框架利用可编程光子电路生成紧凑的条件信号,在知识蒸馏过程中约束和引导参数高效的学生网络,使其从高容量教师网络中学习。PQKD用字典卷积代替了完全可训练的卷积核:每层仅学习一小组共享的空间基滤波器,而样本相关的通道混合权重则从受限于散粒噪声的光子特征中导出,并通过固定的线性变换进行映射。训练过程交替进行,包括对学生网络进行标准梯度优化,以及对光子参数进行采样鲁棒的无梯度更新,从而避免了通过光子硬件进行微分。在MNIST、Fashion-MNIST和CIFAR-10数据集上,PQKD展现了可控的压缩-精度边界,在激进的卷积压缩下,在更简单的基准测试中保持接近教师网络的性能。性能随着有限采样而可预测地降低,与散粒噪声缩放一致,指数移动平均特征平滑抑制了高频散粒噪声波动,在适度的光子预算下扩展了实际操作范围。

🔬 方法详解

问题定义:论文旨在解决深度学习模型压缩的问题,特别是在资源受限的场景下,如何高效地将大型教师网络的知识迁移到小型学生网络。现有知识蒸馏方法主要依赖于软件层面的优化,缺乏硬件层面的随机性和可控性,导致压缩后的模型性能下降,且泛化能力受限。

核心思路:论文的核心思路是利用光子量子处理器的固有随机性,生成具有结构化随机性的条件信号,作为一种硬件辅助的正则化手段,引导学生网络的学习过程。通过光子电路生成紧凑的条件信号,约束和引导参数高效的学生网络,使其更好地学习教师网络的知识。

技术框架:PQKD框架包含一个教师网络、一个学生网络和一个可编程光子电路。教师网络是一个预训练好的大型模型,学生网络是一个参数量较小的模型。光子电路负责生成条件信号,该信号被输入到学生网络中,用于调整其参数。训练过程交替进行:首先,使用标准梯度下降法优化学生网络的参数;然后,使用采样鲁棒的无梯度方法更新光子电路的参数。

关键创新:PQKD的关键创新在于将光子量子处理器引入到知识蒸馏框架中,利用其产生的随机性来增强学生网络的学习能力。具体来说,PQKD使用字典卷积代替了传统的卷积核,每层只学习一小组共享的空间基滤波器,而样本相关的通道混合权重则从光子特征中导出。这种设计既减少了参数量,又引入了随机性,从而提高了模型的泛化能力。

关键设计:PQKD的关键设计包括:1) 使用可编程光子电路生成条件信号;2) 使用字典卷积代替传统的卷积核;3) 使用采样鲁棒的无梯度方法更新光子电路的参数;4) 使用指数移动平均特征平滑来抑制高频散粒噪声波动。损失函数包括知识蒸馏损失和正则化损失,用于约束学生网络的学习过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PQKD在MNIST、Fashion-MNIST和CIFAR-10数据集上实现了可控的压缩-精度平衡。在激进的卷积压缩下,PQKD在更简单的基准测试中保持接近教师网络的性能。此外,实验还验证了PQKD在有限采样条件下的鲁棒性,以及指数移动平均特征平滑对抑制散粒噪声的有效性。

🎯 应用场景

PQKD具有广泛的应用前景,例如在边缘计算设备上部署轻量级模型、在资源受限的环境中进行模型训练、以及在需要高安全性的场景中利用量子随机性增强模型的鲁棒性。该研究为硬件加速的机器学习提供了一种新的思路,有望推动量子计算与机器学习的交叉融合。

📄 摘要(原文)

Photonic quantum processors naturally produce intrinsically stochastic measurement outcomes, offering a hardware-native source of structured randomness that can be exploited during machine-learning training. Here we introduce Photonic Quantum-Enhanced Knowledge Distillation (PQKD), a hybrid quantum photonic--classical framework in which a programmable photonic circuit generates a compact conditioning signal that constrains and guides a parameter-efficient student network during distillation from a high-capacity teacher. PQKD replaces fully trainable convolutional kernels with dictionary convolutions: each layer learns only a small set of shared spatial basis filters, while sample-dependent channel-mixing weights are derived from shot-limited photonic features and mapped through a fixed linear transform. Training alternates between standard gradient-based optimisation of the student and sampling-robust, gradient-free updates of photonic parameters, avoiding differentiation through photonic hardware. Across MNIST, Fashion-MNIST and CIFAR-10, PQKD traces a controllable compression--accuracy frontier, remaining close to teacher performance on simpler benchmarks under aggressive convolutional compression. Performance degrades predictably with finite sampling, consistent with shot-noise scaling, and exponential moving-average feature smoothing suppresses high-frequency shot-noise fluctuations, extending the practical operating regime at moderate shot budgets.