Peregrine: One-Shot Fine-Tuning for FHE Inference of General Deep CNNs
作者: Huaming Ling, Ying Wang, Si Chen, Junfeng Fan
分类: cs.CV
发布日期: 2025-11-24
💡 一句话要点
Peregrine:用于通用深度CNN的FHE推理的单次微调方法
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 同态加密 深度学习 卷积神经网络 隐私保护 单阶段微调
📋 核心要点
- 现有方法难以在FHE推理中兼顾非线性激活的低阶多项式近似和精度保持。
- 提出单阶段微调策略,直接将预训练CNN转化为FHE友好形式,降低训练开销。
- 设计广义交错打包方案,兼容任意分辨率特征图,并保持同态加密形式。
📝 摘要(中文)
本文旨在解决将通用深度CNN应用于基于同态加密(FHE)的推理时面临的两大挑战:一是使用低阶多项式逼近ReLU等非线性激活函数,同时最大限度地减少精度损失;二是克服密文容量限制,该限制阻碍了FHE推理中的高分辨率图像处理。为此,我们提出了两方面的贡献:(1)一种单阶段微调(SFT)策略,该策略使用低阶多项式直接将预训练的CNN转换为FHE友好的形式,以最小的训练开销实现具有竞争力的精度;(2)一种广义交错打包(GIP)方案,该方案与几乎任意空间分辨率的特征图兼容,并配有一套精心设计的同态算子,可在整个计算过程中保持GIP形式的加密。这些进步使得能够跨各种CNN架构进行高效的端到端FHE推理。在CIFAR-10、ImageNet和MS COCO上的实验表明,通过我们的SFT策略获得的FHE友好型CNN实现了与使用ReLU或SiLU激活函数的基线相当的精度。此外,这项工作首次展示了利用低阶多项式激活进行对象检测的YOLO架构的基于FHE的推理。
🔬 方法详解
问题定义:论文旨在解决将深度卷积神经网络(CNN)应用于同态加密(FHE)推理时遇到的两个主要问题。首先,如何在保证精度的前提下,使用低阶多项式来近似ReLU等非线性激活函数。其次,如何克服FHE推理中密文容量的限制,从而支持高分辨率图像的处理。现有方法通常需要在精度和计算复杂度之间进行权衡,或者无法有效地处理高分辨率图像。
核心思路:论文的核心思路是通过单阶段微调(SFT)将预训练的CNN直接转换为FHE友好的形式,避免了复杂的中间步骤。同时,设计了一种广义交错打包(GIP)方案,以提高密文的利用率,从而支持高分辨率图像的处理。这种设计旨在最大限度地减少精度损失,并提高FHE推理的效率。
技术框架:整体框架包括两个主要部分:单阶段微调(SFT)和广义交错打包(GIP)。SFT首先使用低阶多项式替换原始CNN中的非线性激活函数,然后通过微调来恢复精度。GIP则将特征图以交错的方式打包到密文中,从而提高密文的利用率。此外,论文还设计了一套同态算子,以支持在GIP形式的密文上进行计算。
关键创新:论文的关键创新在于单阶段微调策略和广义交错打包方案。SFT可以直接将预训练的CNN转换为FHE友好的形式,而无需复杂的中间步骤。GIP则可以有效地利用密文空间,从而支持高分辨率图像的处理。与现有方法相比,这些创新可以显著提高FHE推理的效率和精度。
关键设计:SFT的关键设计在于选择合适的低阶多项式来近似非线性激活函数,并通过微调来优化网络的参数。GIP的关键设计在于如何将特征图以交错的方式打包到密文中,并设计相应的同态算子来支持计算。此外,论文还考虑了如何在保证安全性的前提下,最大限度地提高计算效率。
📊 实验亮点
实验结果表明,通过SFT策略获得的FHE友好型CNN在CIFAR-10、ImageNet和MS COCO数据集上实现了与使用ReLU或SiLU激活函数的基线相当的精度。此外,该工作首次展示了利用低阶多项式激活进行对象检测的YOLO架构的基于FHE的推理。这些结果表明,该方法可以在保证精度的前提下,有效地支持FHE推理。
🎯 应用场景
该研究成果可应用于隐私保护的图像识别、目标检测等领域。例如,在医疗影像分析中,可以在不泄露患者隐私的情况下,利用FHE对医疗影像进行分析和诊断。在金融风控领域,可以在保护用户隐私的前提下,利用FHE对用户的信用风险进行评估。未来,该技术有望在更多需要隐私保护的场景中得到应用。
📄 摘要(原文)
We address two fundamental challenges in adapting general deep CNNs for FHE-based inference: approximating non-linear activations such as ReLU with low-degree polynomials while minimizing accuracy degradation, and overcoming the ciphertext capacity barrier that constrains high-resolution image processing on FHE inference. Our contributions are twofold: (1) a single-stage fine-tuning (SFT) strategy that directly converts pre-trained CNNs into FHE-friendly forms using low-degree polynomials, achieving competitive accuracy with minimal training overhead; and (2) a generalized interleaved packing (GIP) scheme that is compatible with feature maps of virtually arbitrary spatial resolutions, accompanied by a suite of carefully designed homomorphic operators that preserve the GIP-form encryption throughout computation. These advances enable efficient, end-to-end FHE inference across diverse CNN architectures. Experiments on CIFAR-10, ImageNet, and MS COCO demonstrate that the FHE-friendly CNNs obtained via our SFT strategy achieve accuracy comparable to baselines using ReLU or SiLU activations. Moreover, this work presents the first demonstration of FHE-based inference for YOLO architectures in object detection leveraging low-degree polynomial activations.