AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution
作者: Yiwei Zhao, Yi Zheng, Huapeng Su, Jieyu Lin, Stefano Ambrogio, Cijo Jose, Michaël Ramamonjisoa, Patrick Labatut, Barbara De Salvo, Chiao Liu, Phillip B. Gibbons, Ziyun Li
分类: cs.CV, cs.LG
发布日期: 2026-04-17
💡 一句话要点
AdaVFM:通过LLM引导的自适应视觉基础模型实现边缘智能
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘智能 视觉基础模型 大型语言模型 神经架构搜索 运行时自适应 模型压缩 零样本学习
📋 核心要点
- 现有视觉基础模型在边缘设备部署受限于延迟和功耗,难以兼顾精度与效率。
- AdaVFM通过LLM引导的运行时自适应执行,动态调整计算,实现精度和效率的平衡。
- 实验表明,AdaVFM在精度和效率上均优于现有方法,显著降低了FLOPs。
📝 摘要(中文)
语言对齐的视觉基础模型(VFMs)能够实现多功能的视觉理解,从而支持常时在线的上下文AI,但其在边缘设备上的部署受到严格的延迟和功耗约束。我们提出了AdaVFM,一个自适应框架,用于对语言对齐的VFMs进行高效的设备端推理,该框架可以根据场景上下文和任务复杂度动态调整计算。我们的关键见解是,模型大小缩减对性能的影响在视觉应用中是任务相关的,这促使我们采用运行时自适应执行策略。AdaVFM将神经架构搜索(NAS)集成到语言对齐的VFM骨干网络中,以支持运行时轻量级子网的执行。部署在云端的多模态大型语言模型(LLM)通过上下文感知的代理实现运行时控制。这种协同作用允许在不同条件下进行有效的模型自适应,同时保持强大的准确性。在零样本分类和开放词汇分割上的大量实验表明,AdaVFM实现了最先进的精度-效率权衡,在IN1K上的acc@1指标上超过了先前的基线高达7.9%,在ADE20K上的mIoU指标上超过了5.2%,优于具有可比VFM大小的最佳模型。对于具有相似精度的模型,AdaVFM进一步将平均FLOPs降低了高达77.9%。
🔬 方法详解
问题定义:现有语言对齐的视觉基础模型(VFMs)虽然在视觉理解方面表现出色,但由于其庞大的模型尺寸和计算复杂度,难以直接部署在资源受限的边缘设备上。现有的模型压缩方法,如剪枝和量化,虽然可以减小模型大小,但通常会导致显著的精度下降。此外,不同视觉任务对模型大小的需求不同,静态的模型压缩策略无法适应动态变化的场景需求。
核心思路:AdaVFM的核心思路是利用运行时自适应执行策略,根据场景上下文和任务复杂度动态调整计算。具体来说,AdaVFM通过将神经架构搜索(NAS)集成到VFM骨干网络中,预先搜索并训练多个轻量级子网。在运行时,利用部署在云端的多模态大型语言模型(LLM)作为上下文感知的代理,根据当前场景和任务需求,动态选择合适的子网进行推理,从而在精度和效率之间取得平衡。
技术框架:AdaVFM的整体框架包含三个主要模块:1) 基于NAS的VFM骨干网络,用于搜索和训练多个轻量级子网;2) 部署在云端的多模态LLM,作为上下文感知的代理,用于根据场景和任务需求选择合适的子网;3) 运行时自适应执行引擎,用于动态加载和执行选定的子网。整个流程如下:首先,输入图像和任务描述被传递给云端的LLM代理。LLM代理根据图像内容和任务需求,选择合适的子网。然后,选定的子网被加载到边缘设备上,并对输入图像进行推理。最后,推理结果被返回给用户。
关键创新:AdaVFM的关键创新在于将神经架构搜索(NAS)与运行时自适应执行相结合,并利用多模态LLM作为上下文感知的代理。与传统的静态模型压缩方法相比,AdaVFM能够根据场景和任务需求动态调整计算,从而在精度和效率之间取得更好的平衡。此外,利用LLM作为代理可以更好地理解用户意图和场景上下文,从而做出更明智的子网选择。
关键设计:AdaVFM的关键设计包括:1) 使用差分神经架构搜索(Differentiable NAS)来高效地搜索轻量级子网;2) 设计了一种多模态LLM代理,该代理可以同时接收图像和文本输入,并根据图像内容和任务需求选择合适的子网;3) 实现了一种高效的运行时自适应执行引擎,该引擎可以动态加载和执行选定的子网,并支持多种硬件平台。
🖼️ 关键图片
📊 实验亮点
AdaVFM在零样本分类和开放词汇分割任务上取得了显著的性能提升。在IN1K数据集上,AdaVFM的acc@1指标超过了先前的基线高达7.9%。在ADE20K数据集上,AdaVFM的mIoU指标超过了5.2%,优于具有可比VFM大小的最佳模型。对于具有相似精度的模型,AdaVFM进一步将平均FLOPs降低了高达77.9%,表明其在精度和效率方面均优于现有方法。
🎯 应用场景
AdaVFM适用于各种需要低延迟和低功耗的边缘智能应用,例如智能监控、自动驾驶、机器人导航和增强现实。通过动态调整计算资源,AdaVFM可以在资源受限的边缘设备上实现高性能的视觉理解,从而为这些应用带来更智能、更高效的解决方案。未来,AdaVFM有望推动边缘计算的发展,并为更多智能设备赋能。
📄 摘要(原文)
Language-aligned vision foundation models (VFMs) enable versatile visual understanding for always-on contextual AI, but their deployment on edge devices is hindered by strict latency and power constraints. We present AdaVFM, an adaptive framework for efficient on-device inference of language-aligned VFMs that dynamically adjusts computation based on scene context and task complexity. Our key insight is that the effect of model size reduction on performance is task-dependent in vision applications, motivating a runtime-adaptive execution strategy. AdaVFM integrates neural architecture search (NAS) into the language-aligned VFM backbone to enable lightweight subnet execution during runtime. A multimodal large language model (LLM) deployed on the cloud enables runtime control with a context-aware agent. This synergy allows efficient model adaptation under diverse conditions while maintaining strong accuracy. Extensive experiments on zero-shot classification and open-vocabulary segmentation demonstrate that AdaVFM achieves state-of-the-art accuracy-efficiency trade-offs, surpassing prior baselines by up to $7.9\%$ in acc@1 on IN1K and $5.2\%$ mIoU on ADE20K over the best models of comparable VFM sizes. For models with similar accuracy, AdaVFM further reduces average FLOPs by up to $77.9\%$.