Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge

📄 arXiv: 2603.29535v1 📥 PDF

作者: Sowmya Vajrala, Aakash Parmar, Prasanna R, Sravanth Kodavanti, Manjunath Arveti, Srinivas Soumitri Miriyala, Ashok Senapati

分类: cs.CV, cs.AI

发布日期: 2026-03-31

备注: Accepted at the Mobile AI Workshop, CVPR 2026


💡 一句话要点

提出QUAD框架,实现边缘设备上多LoRA自适应的生成视觉模型量化与部署。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 生成式AI 视觉模型 LoRA 量化 模型压缩 自适应蒸馏

📋 核心要点

  1. 大型视觉模型(LVM)部署在资源受限的移动设备上,面临着高内存和计算需求的挑战。
  2. 将LoRA权重作为运行时输入,实现动态任务切换,避免了为每个LoRA编译单独模型,减少冗余存储和运行时开销。
  3. QUAD量化感知训练策略,在共享量化配置下对齐多个LoRA适配器,提升了设备端执行效率。

📝 摘要(中文)

本文提出了一种统一的框架,旨在边缘设备上实现多任务生成式人工智能(GenAI)推理,且仅需一个共享模型。核心思想是将LoRA权重视为运行时输入,而非嵌入到编译后的模型图中,从而允许在运行时动态切换任务,无需重新编译。为了支持高效的设备端执行,本文引入了QUAD(Quantization with Unified Adaptive Distillation),这是一种量化感知训练策略,可在共享量化配置文件下对齐多个LoRA适配器。该系统采用与移动NPU兼容的轻量级运行时堆栈实现,并在多个芯片组上进行了评估。实验结果表明,在保持多个GenAI任务的高视觉质量的同时,内存占用减少高达6倍,延迟改善高达4倍。

🔬 方法详解

问题定义:现有方法在边缘设备上部署基于LoRA的生成视觉模型时,通常需要为每个LoRA适配器及其基础模型编译单独的模型二进制文件。这导致了大量的冗余存储,增加了部署包的大小,并且在运行时切换任务时需要加载不同的模型,造成额外的延迟和资源开销。因此,问题在于如何在边缘设备上高效地部署多个LoRA适配器,同时最小化存储占用和运行时延迟。

核心思路:本文的核心思路是将LoRA权重视为运行时输入,而不是将它们静态地嵌入到编译后的模型图中。通过这种方式,可以在运行时动态地切换任务,而无需重新编译模型。此外,通过量化感知训练,可以进一步减小模型的大小并提高推理速度。

技术框架:该框架包含三个主要部分:1) 一个共享的基础模型,该模型被量化以减小其大小;2) 多个LoRA适配器,这些适配器的权重在运行时被加载到模型中;3) 一个轻量级的运行时堆栈,该堆栈负责加载LoRA权重、执行模型推理和管理设备资源。QUAD量化训练策略用于对齐多个LoRA适配器,使其能够在共享的量化配置下工作。

关键创新:该论文的关键创新在于提出了一种统一的框架,该框架允许在边缘设备上使用单个共享模型来执行多个GenAI任务。通过将LoRA权重视为运行时输入,该框架避免了为每个任务编译单独模型的需求,从而显著减少了存储占用和运行时延迟。此外,QUAD量化感知训练策略确保了量化后的模型能够保持高视觉质量。

关键设计:QUAD的关键设计包括:1) 使用量化感知训练来对齐多个LoRA适配器,使其能够在共享的量化配置下工作;2) 设计一个轻量级的运行时堆栈,该堆栈能够高效地加载LoRA权重、执行模型推理和管理设备资源;3) 优化模型结构和量化参数,以在精度和性能之间取得最佳平衡。损失函数包括量化损失和蒸馏损失,以保证量化后的模型精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与现有方法相比,该方法在多个GenAI任务上实现了高达6倍的内存占用减少和高达4倍的延迟改善,同时保持了高视觉质量。这些结果表明,该方法是一种有效的解决方案,可以在边缘设备上部署多任务生成视觉模型。

🎯 应用场景

该研究成果可广泛应用于移动设备上的图像编辑、物体移除、提示引导的图像转换等生成式AI应用。通过减少模型大小和提高推理速度,该方法使得在资源受限的边缘设备上部署复杂的视觉模型成为可能,从而为用户提供更流畅、更实时的AI体验。未来,该技术可进一步扩展到其他类型的生成模型和边缘设备,推动边缘AI的发展。

📄 摘要(原文)

Generative Artificial Intelligence (GenAI) features such as image editing, object removal, and prompt-guided image transformation are increasingly integrated into mobile applications. However, deploying Large Vision Models (LVMs) for such tasks on resource-constrained devices remains challenging due to their high memory and compute requirements. While Low-Rank Adapters (LoRAs) enable parameter-efficient task adaptation, existing Mobile deployment pipelines typically compile separate model binaries for each LoRA + a copy of the foundation model, resulting in redundant storage and increased runtime overhead. In this work, we present a unified framework for enabling multi-task GenAI inference on edge devices using a single shared model. Our key idea is to treat LoRA weights as runtime inputs rather than embedding them into the compiled model graph, allowing dynamic task switching at runtime without recompilation. Then, to support efficient on-device execution, we introduce QUAD (Quantization with Unified Adaptive Distillation), a quantizationaware training strategy that aligns multiple LoRA adapters under a shared quantization profile. We implement the proposed system with a lightweight runtime stack compatible with mobile NPUs and evaluate it across multiple chipsets. Experimental results demonstrate up to 6x and 4x reduction in memory footprint and latency improvements, respectively, while maintaining high visual quality across multiple GenAI tasks.