Photonic Quantum-Enhanced Knowledge Distillation

作者: Kuan-Cheng Chen, Shang Yu, Chen-Yu Liu, Samuel Yen-Chi Chen, Huan-Hsin Tseng, Yen Jui Chang, Wei-Hao Huang, Felix Burt, Esperanza Cuenca Gomez, Zohim Chandani, William Clements, Ian Walmsley, Kin K. Leung

分类: quant-ph, cs.ET, cs.LG

发布日期: 2026-03-16

💡 一句话要点

提出光子量子增强知识蒸馏(PQKD)框架，利用光子电路提升模型压缩性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 光子量子计算 模型压缩 硬件加速 随机性 字典卷积

📋 核心要点

现有知识蒸馏方法依赖于纯粹的软件优化，缺乏硬件层面的随机性和可控性，限制了模型压缩的效率和泛化能力。
PQKD利用光子量子处理器的固有随机性，生成条件信号来引导学生网络的学习，实现硬件辅助的知识蒸馏，提升模型压缩性能。
实验表明，PQKD在多个数据集上实现了可控的压缩-精度平衡，并在有限采样条件下表现出良好的鲁棒性，验证了其有效性。

📝 摘要（中文）

本文提出了一种光子量子增强知识蒸馏(PQKD)的混合量子光子-经典框架。该框架利用可编程光子电路生成紧凑的条件信号，在知识蒸馏过程中约束和引导参数高效的学生网络，使其从高容量教师网络中学习。PQKD用字典卷积代替了完全可训练的卷积核：每层仅学习一小组共享的空间基滤波器，而样本相关的通道混合权重则从受限于散粒噪声的光子特征中导出，并通过固定的线性变换进行映射。训练过程交替进行，包括对学生网络进行标准梯度优化，以及对光子参数进行采样鲁棒的无梯度更新，从而避免了通过光子硬件进行微分。在MNIST、Fashion-MNIST和CIFAR-10数据集上，PQKD展现了可控的压缩-精度边界，在激进的卷积压缩下，在更简单的基准测试中保持接近教师网络的性能。性能随着有限采样而可预测地降低，与散粒噪声缩放一致，指数移动平均特征平滑抑制了高频散粒噪声波动，在适度的光子预算下扩展了实际操作范围。

🔬 方法详解

问题定义：论文旨在解决深度学习模型压缩的问题，特别是在资源受限的场景下，如何高效地将大型教师网络的知识迁移到小型学生网络。现有知识蒸馏方法主要依赖于软件层面的优化，缺乏硬件层面的随机性和可控性，导致压缩后的模型性能下降，且泛化能力受限。

核心思路：论文的核心思路是利用光子量子处理器的固有随机性，生成具有结构化随机性的条件信号，作为一种硬件辅助的正则化手段，引导学生网络的学习过程。通过光子电路生成紧凑的条件信号，约束和引导参数高效的学生网络，使其更好地学习教师网络的知识。

技术框架：PQKD框架包含一个教师网络、一个学生网络和一个可编程光子电路。教师网络是一个预训练好的大型模型，学生网络是一个参数量较小的模型。光子电路负责生成条件信号，该信号被输入到学生网络中，用于调整其参数。训练过程交替进行：首先，使用标准梯度下降法优化学生网络的参数；然后，使用采样鲁棒的无梯度方法更新光子电路的参数。

关键创新：PQKD的关键创新在于将光子量子处理器引入到知识蒸馏框架中，利用其产生的随机性来增强学生网络的学习能力。具体来说，PQKD使用字典卷积代替了传统的卷积核，每层只学习一小组共享的空间基滤波器，而样本相关的通道混合权重则从光子特征中导出。这种设计既减少了参数量，又引入了随机性，从而提高了模型的泛化能力。

关键设计：PQKD的关键设计包括：1) 使用可编程光子电路生成条件信号；2) 使用字典卷积代替传统的卷积核；3) 使用采样鲁棒的无梯度方法更新光子电路的参数；4) 使用指数移动平均特征平滑来抑制高频散粒噪声波动。损失函数包括知识蒸馏损失和正则化损失，用于约束学生网络的学习过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PQKD在MNIST、Fashion-MNIST和CIFAR-10数据集上实现了可控的压缩-精度平衡。在激进的卷积压缩下，PQKD在更简单的基准测试中保持接近教师网络的性能。此外，实验还验证了PQKD在有限采样条件下的鲁棒性，以及指数移动平均特征平滑对抑制散粒噪声的有效性。

🎯 应用场景

PQKD具有广泛的应用前景，例如在边缘计算设备上部署轻量级模型、在资源受限的环境中进行模型训练、以及在需要高安全性的场景中利用量子随机性增强模型的鲁棒性。该研究为硬件加速的机器学习提供了一种新的思路，有望推动量子计算与机器学习的交叉融合。

📄 摘要（原文）

Photonic quantum processors naturally produce intrinsically stochastic measurement outcomes, offering a hardware-native source of structured randomness that can be exploited during machine-learning training. Here we introduce Photonic Quantum-Enhanced Knowledge Distillation (PQKD), a hybrid quantum photonic--classical framework in which a programmable photonic circuit generates a compact conditioning signal that constrains and guides a parameter-efficient student network during distillation from a high-capacity teacher. PQKD replaces fully trainable convolutional kernels with dictionary convolutions: each layer learns only a small set of shared spatial basis filters, while sample-dependent channel-mixing weights are derived from shot-limited photonic features and mapped through a fixed linear transform. Training alternates between standard gradient-based optimisation of the student and sampling-robust, gradient-free updates of photonic parameters, avoiding differentiation through photonic hardware. Across MNIST, Fashion-MNIST and CIFAR-10, PQKD traces a controllable compression--accuracy frontier, remaining close to teacher performance on simpler benchmarks under aggressive convolutional compression. Performance degrades predictably with finite sampling, consistent with shot-noise scaling, and exponential moving-average feature smoothing suppresses high-frequency shot-noise fluctuations, extending the practical operating regime at moderate shot budgets.

Photonic Quantum-Enhanced Knowledge Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理