Towards Privacy-Preserving Large Language Model: Text-free Inference Through Alignment and Adaptation

📄 arXiv: 2604.06831v1 📥 PDF

作者: Jeongho Yoon, Chanhee Park, Yongchan Chun, Hyeonseok Moon, Heuiseok Lim

分类: cs.CR, cs.AI

发布日期: 2026-04-08


💡 一句话要点

提出隐私保护的LLM训练方法以解决文本传输隐私问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐私保护 大型语言模型 微调 文本嵌入 机器学习 数据安全

📋 核心要点

  1. 现有的LLM服务要求用户提交原始文本,导致个人信息面临隐私泄露风险,且现有防护措施往往增加计算开销并降低模型性能。
  2. 本文提出隐私保护微调(PPFT),通过客户端编码器和服务器投影模块的协同训练,消除原始文本传输的需求,同时保持模型效用。
  3. 实验表明,PPFT在多个领域基准测试中表现出色,隐私保护与模型性能之间的平衡显著优于现有方法。

📝 摘要(中文)

当前基于大型语言模型(LLM)的服务通常要求用户提交原始文本,这种做法虽然直观,但引入了显著的隐私风险。为了解决这一隐私与效率的权衡问题,本文提出了一种新的训练管道——隐私保护微调(PPFT),该方法在不传输原始文本的情况下,保持了隐私保护与模型效用之间的良好平衡。PPFT通过两阶段操作:首先在客户端训练编码器和服务器端投影模块,使服务器能够基于k个聚合的提示嵌入进行条件处理;其次,使用注入噪声的嵌入对投影模块和LLM进行微调,从而在不暴露明文提示的情况下实现有效适应。实验结果表明,PPFT在隐私和效用之间取得了显著平衡,性能与无噪声的上限相比仅有微小下降。

🔬 方法详解

问题定义:当前LLM服务需要用户提交原始文本,导致隐私泄露风险,现有防护措施往往增加计算开销并降低模型性能。

核心思路:本文提出隐私保护微调(PPFT),通过训练客户端编码器和服务器投影模块,消除原始文本的传输需求,同时保持模型的实用性。

技术框架:PPFT的整体架构分为两个阶段:第一阶段训练客户端编码器和服务器投影模块,使服务器能够基于聚合的提示嵌入进行处理;第二阶段在私有领域特定数据上微调投影模块和LLM,使用注入噪声的嵌入进行适应。

关键创新:PPFT的主要创新在于通过聚合提示嵌入替代原始文本,避免了明文传输,同时实现了有效的模型适应,显著提升了隐私保护能力。

关键设计:在设计中,采用了噪声注入技术以增强嵌入的隐私保护,同时确保微调过程中不需要访问解码器的内部参数,优化了模型的训练效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,PPFT在多个领域基准测试中表现优异,隐私保护与模型效用之间的平衡显著优于现有方法,性能仅与无噪声上限相比有微小下降,展示了其在隐私保护方面的有效性。

🎯 应用场景

该研究的潜在应用领域包括医疗、法律和个人数据处理等对隐私要求极高的场景。通过PPFT,服务提供商能够在保护用户隐私的同时,提供高效的LLM服务,具有重要的实际价值和未来影响。

📄 摘要(原文)

Current LLM-based services typically require users to submit raw text regardless of its sensitivity. While intuitive, such practice introduces substantial privacy risks, as unauthorized access may expose personal, medical, or legal information. Although prior defenses strived to mitigate these risks, they often incur substantial computational overhead and degrade model performance. To overcome this privacy-efficiency trade-off, we introduce Privacy-Preserving Fine-Tuning (PPFT), a novel training pipeline that eliminates the need for transmitting raw prompt text while maintaining a favorable balance between privacy preservation and model utility for both clients and service providers. Our approach operates in two stages: first, we train a client-side encoder together with a server-side projection module and LLM, enabling the server to condition on k-pooled prompt embeddings instead of raw text; second, we fine-tune the projection module and LLM on private, domain-specific data using noise-injected embeddings, allowing effective adaptation without exposing plain text prompts and requiring access to the decoder's internal parameters. Extensive experiments on domain-specific and general benchmarks demonstrate that PPFT achieves a striking balance between privacy and utility, maintaining competitive performance with minimal degradation compared to noise-free upper bounds.