FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

📄 arXiv: 2603.09046v1 📥 PDF

作者: Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin Xia

分类: cs.CR, cs.LG, cs.OS

发布日期: 2026-03-10

备注: 13 pages, 11 figures


💡 一句话要点

FlexServe:一种快速安全的移动端LLM服务系统,具备灵活的资源隔离能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 设备端LLM TrustZone 安全推理 资源隔离 移动设备 性能优化 多模型调度

📋 核心要点

  1. 设备端LLM推理面临安全威胁,现有TrustZone方案因资源隔离不灵活导致性能开销过大。
  2. FlexServe通过灵活的资源隔离机制,实现了内存页和NPU在安全与非安全模式间的高效切换。
  3. 实验表明,FlexServe在TTFT和多模型工作流上显著优于基于TrustZone的基线方案,加速效果明显。

📝 摘要(中文)

设备端大型语言模型(LLM)相比云端LLM,在隐私和可用性方面具有显著优势,因此呈现爆炸式增长。然而,LLM推理过程中,模型权重和用户数据都极具价值,攻击者甚至可能攻破操作系统内核来窃取它们。ARM TrustZone是移动设备上事实上的硬件隔离技术,用于保护敏感应用免受被入侵操作系统的威胁。但是,使用TrustZone保护LLM推理会带来显著的开销,因为其对内存和NPU的隔离方式不够灵活。为了解决这些挑战,本文提出了FlexServe,一种快速且安全的移动设备LLM服务系统。它首先引入了一种灵活的资源隔离机制,构建了灵活安全内存(Flex-Mem)和灵活安全NPU(Flex-NPU)。内存页和NPU都可以在非保护模式和保护模式之间高效切换。基于这些机制,FlexServe在TrustZone的安全世界中设计了一个快速且安全的LLM推理框架。引入了LLM感知的内存管理和安全推理流水线来加速推理。提出了一个多模型调度器来优化多模型工作流。我们实现了FlexServe的原型,并将其与两个基于TrustZone的简单设计进行了比较。结果表明,与简单设计相比,FlexServe在首个token生成时间(TTFT)上平均实现了10.05倍的加速,与启用了流水线和安全NPU的优化简单设计相比,平均实现了2.44倍的TTFT加速。对于多模型代理工作流,端到端加速分别高达24.30倍和4.05倍。

🔬 方法详解

问题定义:现有的设备端LLM推理方案,特别是基于ARM TrustZone的安全方案,由于TrustZone对内存和NPU的资源隔离方式不够灵活,导致了显著的性能开销。具体来说,TrustZone通常采用静态的内存划分和NPU访问控制,无法根据LLM推理的实际需求动态调整,从而造成资源浪费和效率低下。攻击者可能通过攻破非安全侧的操作系统内核来窃取模型权重和用户数据,因此需要有效的安全机制来保护LLM推理过程。

核心思路:FlexServe的核心思路是引入一种灵活的资源隔离机制,允许内存页和NPU在非保护模式和保护模式之间高效切换。通过这种方式,FlexServe可以在需要保护敏感数据时启用安全模式,而在执行非敏感操作时切换到非安全模式,从而降低安全开销并提高推理效率。此外,FlexServe还设计了LLM感知的内存管理和安全推理流水线,以及多模型调度器,进一步优化了推理性能。

技术框架:FlexServe的整体架构包含以下几个主要模块:1) 灵活安全内存(Flex-Mem):提供内存页在安全与非安全模式之间动态切换的能力。2) 灵活安全NPU(Flex-NPU):允许NPU在安全模式下访问受保护的数据,并在非安全模式下执行非敏感计算。3) LLM感知的内存管理:根据LLM推理的特点,优化内存分配和数据传输。4) 安全推理流水线:将LLM推理过程分解为多个阶段,并在不同阶段采用不同的安全策略。5) 多模型调度器:优化多模型工作流的执行顺序和资源分配。

关键创新:FlexServe最重要的技术创新点在于其灵活的资源隔离机制。与传统的TrustZone方案相比,FlexServe可以根据LLM推理的实际需求动态调整内存和NPU的安全模式,从而在安全性和性能之间取得更好的平衡。这种灵活的资源隔离机制是FlexServe能够实现显著性能提升的关键。

关键设计:FlexServe的关键设计包括:1) 细粒度的内存页切换:允许以页为单位在安全与非安全模式之间切换内存,从而最大限度地减少安全开销。2) NPU访问控制策略:定义了NPU在安全模式下可以访问的数据范围,以及在非安全模式下可以执行的操作。3) LLM感知的内存分配算法:根据LLM的层结构和数据依赖关系,优化内存分配和数据传输。4) 流水线调度策略:根据LLM推理的阶段特点,设计了高效的流水线调度策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FlexServe相比于基于TrustZone的简单设计,在首个token生成时间(TTFT)上平均实现了10.05倍的加速。与启用了流水线和安全NPU的优化简单设计相比,平均实现了2.44倍的TTFT加速。对于多模型代理工作流,端到端加速分别高达24.30倍和4.05倍。这些数据表明FlexServe在性能上具有显著优势。

🎯 应用场景

FlexServe适用于各种需要在移动设备上进行安全LLM推理的场景,例如:离线语音助手、本地知识库问答、安全文档处理等。该研究成果有助于在移动设备上实现更安全、更高效的AI应用,保护用户隐私和数据安全,并推动设备端AI的发展。

📄 摘要(原文)

Device-side Large Language Models (LLMs) have witnessed explosive growth, offering higher privacy and availability compared to cloud-side LLMs. During LLM inference, both model weights and user data are valuable, and attackers may even compromise the OS kernel to steal them. ARM TrustZone is the de facto hardware-based isolation technology on mobile devices, used to protect sensitive applications from a compromised OS. However, protecting LLM inference with TrustZone incurs significant overhead due to its inflexible isolation of memory and the NPU. To address these challenges, this paper introduces FlexServe, a fast and secure LLM serving system for mobile devices. It first introduces a Flexible Resource Isolation mechanism to construct Flexible Secure Memory (Flex-Mem) and Flexible Secure NPU (Flex-NPU). Both memory pages and the NPU can be efficiently switched between unprotected and protected modes. Based on these mechanisms, FlexServe designs a fast and secure LLM inference framework within TrustZone's secure world. The LLM-Aware Memory Management and Secure Inference Pipeline are introduced to accelerate inference. A Multi-Model Scheduler is proposed to optimize multi-model workflows. We implement a prototype of FlexServe and compare it with two TrustZone-based strawman designs. The results show that FlexServe achieves an average $10.05\times$ speedup in Time to First Token (TTFT) compared to the strawman, and an average $2.44\times$ TTFT speedup compared to an optimized strawman with pipeline and secure NPU enabled. For multi-model agent workflows, the end-to-end speedup is up to $24.30\times$ and $4.05\times$ compared to the strawman and optimized strawman, respectively.