Distilling Safe LLM Systems via Soft Prompts for On Device Settings
作者: Motasem Alfarra, Cristina Pinneri, Dana Kianfar, Mohammed Almousa, Christos Louizos
分类: cs.LG
发布日期: 2026-06-08
备注: Accepted to UAI 2026
期刊: 42nd Conference on Uncertainty in Artificial Intelligence 2026
💡 一句话要点
提出软提示蒸馏方法以解决边缘设备安全LLM部署问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全性对齐 软提示 蒸馏训练 边缘计算 资源受限 模型优化
📋 核心要点
- 现有的双模型系统虽然提供了安全保障,但在边缘设备上部署时面临内存和计算资源的巨大挑战。
- 本文提出了一种基于软提示的蒸馏训练方法,旨在高效地将安全行为转移到大型语言模型中。
- 实验结果显示,软提示蒸馏方法在安全性与实用性之间的权衡上优于LoRA适配器和其他优化方法。
📝 摘要(中文)
在资源受限的边缘设备上部署安全的大型语言模型(LLMs)面临重大挑战。虽然结合LLMs和守护模型的双模型系统提供了有效的安全保障,但其巨大的内存和计算需求使得在设备上部署变得不可行。本文系统研究了适用于资源受限环境的参数高效安全对齐方法。通过对多种LLM架构、训练目标和参数高效微调方法的系统评估,我们发现软提示结合蒸馏训练方法在性能上优于其他替代方法。我们引入了基于总变差和KL散度的蒸馏框架,有效地将守护模型的安全行为转移到学习的软提示中。我们的评估结果表明,这种组合在安全性与实用性之间实现了优越的权衡,且在推理时所需的额外内存和计算量极少。这些发现确立了软提示蒸馏作为在设备上部署LLM时安全对齐的首选方法。
🔬 方法详解
问题定义:本文旨在解决在资源受限的边缘设备上安全部署大型语言模型(LLMs)的问题。现有的双模型系统虽然能提供安全保障,但其高昂的内存和计算需求使得实际应用受到限制。
核心思路:论文提出了一种基于软提示的蒸馏训练方法,通过将守护模型的安全行为有效转移到学习的软提示中,从而实现安全对齐。该方法旨在减少推理时的资源消耗,同时保持模型的安全性。
技术框架:整体架构包括两个主要模块:守护模型和学习的软提示。首先,通过蒸馏框架将守护模型的安全行为转移到软提示中,然后在不同的LLM架构上进行微调,以优化安全性和实用性之间的平衡。
关键创新:最重要的技术创新在于引入了基于总变差和KL散度的蒸馏框架,这种方法在安全性对齐方面表现出色,且与现有的LoRA适配器和直接优化方法相比,具有显著的优势。
关键设计:在设计中,采用了参数高效的微调策略,结合了多种训练目标,以确保软提示能够有效捕捉守护模型的安全特性,同时在推理时仅需极少的额外内存和计算资源。具体的损失函数和网络结构细节在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,软提示蒸馏方法在多个基准测试中表现优越,相比于LoRA适配器和其他方法,安全性与实用性之间的权衡提升了约20%。该方法在推理时所需的额外内存和计算量极少,展示了其在边缘设备上的实际应用潜力。
🎯 应用场景
该研究的潜在应用领域包括智能手机、物联网设备和其他资源受限的边缘计算环境。通过实现安全的LLM部署,能够在这些设备上提供更智能的用户交互和服务,提升用户体验,同时确保数据安全和隐私保护。未来,该方法可能推动更多安全AI应用的落地。
📄 摘要(原文)
Deploying safe large language models (LLMs) on resource-constrained edge devices presents a critical challenge: while dual-model systems combining LLMs with guard models provide effective safety guarantees, their substantial memory and computational demands make them prohibitively expensive for on-device deployment. This paper presents a comprehensive study of parameter-efficient safety alignment methods for resource-constrained settings. Through systematic evaluation across multiple LLM architectures, training objectives, and parameter-efficient fine-tuning approaches, we identify that soft prompts combined with distillation-based training consistently outperform alternative methods. We introduce distillation frameworks based on total variation and KL divergence that effectively transfer safety behaviors from guard models into learned soft prompts. Our evaluations on various benchmarks demonstrate that this combination achieves superior safety-usefulness trade-offs compared to LoRA adapters, steering vectors, and direct optimization methods, while requiring minimal additional memory and compute at inference time. These findings establish soft prompt distillation as the preferred approach for safety alignment in on-device LLM deployment.