DCT-CryptoNets: Scaling Private Inference in the Frequency Domain
作者: Arjun Roy, Kaushik Roy
分类: cs.CR, cs.CV, cs.LG
发布日期: 2024-08-27 (更新: 2025-01-22)
备注: ICLR 2025; 10 pages content, 5 pages appendix, 4 figures, 9 tables; Code @ https://github.com/ar-roy/dct-cryptonets
💡 一句话要点
DCT-CryptoNets:提出频域上的私有推理方法,加速同态加密神经网络。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 同态加密 私有推理 频域计算 离散余弦变换 深度学习 图像分类 数据隐私
📋 核心要点
- 现有基于同态加密的深度神经网络私有推理方法面临计算成本高、延迟大和可扩展性差等挑战。
- DCT-CryptoNets的核心思想是在频域(DCT域)直接进行计算,从而减少非线性激活和同态引导的计算负担。
- 实验表明,DCT-CryptoNets相比现有方法,在延迟上降低了高达5.3倍,并在ImageNet数据集上实现了更快的推理速度。
📝 摘要(中文)
本文提出了DCT-CryptoNets,一种在频域上运行的新方法,旨在降低私有推理过程中计算密集型的非线性激活和同态引导操作的负担。该方法利用离散余弦变换(DCT),它与通常以这种编码格式存储和传输图像的远程计算服务具有内在的兼容性。DCT-CryptoNets在基准图像分类任务上展示了高达5.3倍的延迟降低。值得注意的是,它在2.5小时内完成了ImageNet数据集的推理(在等效的96线程计算资源上,之前需要12.5小时)。此外,通过学习感知上显著的低频信息,DCT-CryptoNets通过减少累积误差的同态引导操作,提高了加密预测的可靠性。DCT-CryptoNets还展示了优于基于RGB网络的扩展性,因为随着图像尺寸的增加,计算成本进一步降低。这项研究为实现高效且实用的深度学习模型私有推理提供了一个有希望的途径,适用于现实世界应用中的高分辨率图像。
🔬 方法详解
问题定义:现有基于同态加密(FHE)的深度神经网络私有推理方法,由于计算复杂度高,特别是同态引导(bootstrapping)操作,导致推理延迟过高,难以实际应用。尤其是在处理高分辨率图像时,计算负担会显著增加。
核心思路:论文的核心思路是在频域(DCT域)进行计算,而不是在传统的RGB像素域。DCT变换可以将图像转换为频域表示,而图像的重要信息通常集中在低频部分。通过在频域进行计算,可以减少需要处理的数据量,从而降低计算复杂度。此外,DCT变换与JPEG编码兼容,方便处理实际应用中常见的图像格式。
技术框架:DCT-CryptoNets的整体框架包括以下几个主要阶段:1) 输入图像进行DCT变换,得到频域表示;2) 在频域上构建和训练神经网络模型;3) 使用同态加密对模型和输入数据进行加密;4) 在加密数据上进行推理计算;5) 对结果进行解密。关键模块包括DCT变换层、频域卷积层、非线性激活函数(如Square函数)以及同态加密库(如HElib)。
关键创新:最重要的技术创新点在于将深度学习模型从RGB像素域迁移到DCT频域,并设计了适用于频域计算的神经网络结构。这种方法能够有效利用图像的频域特性,减少计算量,并降低对同态引导操作的需求。与传统的RGB-based网络相比,DCT-CryptoNets能够更好地学习感知上重要的低频信息,从而提高加密预测的可靠性。
关键设计:DCT-CryptoNets的关键设计包括:1) 使用DCT变换作为网络的输入层,将图像转换为频域表示;2) 设计了适用于频域的卷积层,可以直接在DCT系数上进行卷积操作;3) 使用Square函数作为非线性激活函数,因为它在同态加密下计算效率较高;4) 通过调整网络结构和训练策略,优化模型在频域上的性能,并减少同态引导操作的次数。
🖼️ 关键图片
📊 实验亮点
DCT-CryptoNets在图像分类任务上取得了显著的性能提升。与之前的研究相比,DCT-CryptoNets在延迟上降低了高达5.3倍。在ImageNet数据集上,DCT-CryptoNets能够在2.5小时内完成推理,而之前的最佳结果需要12.5小时(在相同的96线程计算资源上)。此外,DCT-CryptoNets还提高了加密预测的可靠性,并展示了更好的可扩展性。
🎯 应用场景
DCT-CryptoNets在医疗影像分析、金融风控、自动驾驶等领域具有广泛的应用前景。例如,在医疗影像分析中,可以对患者的加密医学图像进行诊断,保护患者隐私。在金融风控中,可以对用户的加密交易数据进行风险评估,防止数据泄露。该研究为在保护数据隐私的前提下,利用深度学习技术解决实际问题提供了新的思路。
📄 摘要(原文)
The convergence of fully homomorphic encryption (FHE) and machine learning offers unprecedented opportunities for private inference of sensitive data. FHE enables computation directly on encrypted data, safeguarding the entire machine learning pipeline, including data and model confidentiality. However, existing FHE-based implementations for deep neural networks face significant challenges in computational cost, latency, and scalability, limiting their practical deployment. This paper introduces DCT-CryptoNets, a novel approach that operates directly in the frequency-domain to reduce the burden of computationally expensive non-linear activations and homomorphic bootstrap operations during private inference. It does so by utilizing the discrete cosine transform (DCT), commonly employed in JPEG encoding, which has inherent compatibility with remote computing services where images are generally stored and transmitted in this encoded format. DCT-CryptoNets demonstrates a substantial latency reductions of up to 5.3$\times$ compared to prior work on benchmark image classification tasks. Notably, it demonstrates inference on the ImageNet dataset within 2.5 hours (down from 12.5 hours on equivalent 96-thread compute resources). Furthermore, by learning perceptually salient low-frequency information DCT-CryptoNets improves the reliability of encrypted predictions compared to RGB-based networks by reducing error accumulating homomorphic bootstrap operations. DCT-CryptoNets also demonstrates superior scalability to RGB-based networks by further reducing computational cost as image size increases. This study demonstrates a promising avenue for achieving efficient and practical private inference of deep learning models on high resolution images seen in real-world applications.