FuseFSS: Efficient Secure LLM Inference with Function Secret Sharing

📄 arXiv: 2606.09551v1 📥 PDF

作者: Yuhan Ma, Yong Li, Stefan Schmid

分类: cs.CR, cs.AI

发布日期: 2026-06-08

备注: Accepted at the 43rd International Conference on Machine Learning (ICML 2026)


💡 一句话要点

提出FuseFSS以提升安全LLM推理效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 安全推理 函数秘密共享 大型语言模型 编译器设计 性能优化

📋 核心要点

  1. 现有方法在处理固定点非线性和辅助操作时效率低下,导致安全推理的性能瓶颈。
  2. FuseFSS通过编译器将每个操作的协议设计替换为单一编译管道,从而简化了处理流程。
  3. 实验结果表明,FuseFSS在BERT和GPT模型上实现了1.24到1.50倍的速度提升,并减少了在线通信和预处理时间。

📝 摘要(中文)

两服务器安全推理允许客户端查询托管的大型语言模型(LLM),而不泄露提示或嵌入。基于函数秘密共享(FSS)的最新GPU系统使线性层高效,但固定点非线性和辅助操作仍然是瓶颈。FuseFSS是一个编译器,它通过单一编译管道替代每个操作的协议设计。对于每个标量固定点操作,编译器生成两个批量FSS评估:一个打包比较返回所有谓词位,另一个向量区间查找返回活跃系数和常数。与当前最先进的FSS基础GPU安全推理相比,FuseFSS在保持准确性的同时实现了1.24到1.50倍的端到端加速,并减少了9%到16%的在线通信。

🔬 方法详解

问题定义:本论文旨在解决在安全LLM推理中,固定点非线性和辅助操作导致的性能瓶颈问题。现有方法通常需要为每个操作设计专门的协议,增加了复杂性和计算开销。

核心思路:FuseFSS的核心思路是通过编译器将每个标量固定点操作的协议设计整合为一个单一的编译管道,简化了操作流程并提高了效率。

技术框架:FuseFSS的整体架构包括两个主要模块:一个是打包比较模块,用于返回所有谓词位;另一个是向量区间查找模块,用于返回活跃系数和常数。编译器负责生成这两个模块的FSS评估。

关键创新:FuseFSS的主要创新在于通过统一的编译管道替代了传统的每个操作单独设计协议的方法,从而显著提高了安全推理的效率和准确性。

关键设计:在设计中,编译器为每个固定点操作提供了紧凑的规范,包括区间划分、低阶算术片段和所需的谓词位,确保了高效的FSS评估。预处理阶段的密钥生成时间和密钥大小也得到了优化。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

FuseFSS在BERT和GPT模型上实现了1.24到1.50倍的端到端速度提升,同时在线通信减少了9%到16%。预处理阶段的密钥生成时间降低了14%到23%,密钥大小减少了20%到24%,显示出显著的性能改进。

🎯 应用场景

FuseFSS的研究成果在安全计算和隐私保护领域具有广泛的应用潜力,尤其是在需要保护用户数据的自然语言处理任务中。随着大型语言模型的普及,该技术能够有效提升安全推理的效率,推动相关应用的发展。

📄 摘要(原文)

Two-server secure inference allows a client to query a hosted large language model (LLM) without revealing prompts or embeddings. Recent GPU systems based on function secret sharing (FSS) make linear layers efficient, but fixed-point nonlinearities and helper operations remain a bottleneck because each operator is typically implemented as a bespoke protocol with its own comparisons, wrap-around corrections, and preprocessing material. We present FuseFSS, a compiler that replaces per-operator protocol design with a single compilation pipeline. For each scalar fixed-point operator, a compact specification lists its interval partition, low-degree arithmetic pieces, and required predicate bits. The compiler emits two batched FSS evaluations on the public masked value: one packed comparison that returns all predicate bits, and one vector interval lookup that returns the active coefficients and constants. Compared to the current state-of-the-art FSS-based GPU secure inference, FuseFSS preserves accuracy while achieving a $1.24\times$--$1.50\times$ end-to-end speedup and reducing online communication by $9\%$--$16\%$ on BERT and GPT-style models; preprocessing is also lighter, with $14\%$--$23\%$ lower key-generation time and $20\%$--$24\%$ smaller keys.