AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution

作者: Yiwei Zhao, Yi Zheng, Huapeng Su, Jieyu Lin, Stefano Ambrogio, Cijo Jose, Michaël Ramamonjisoa, Patrick Labatut, Barbara De Salvo, Chiao Liu, Phillip B. Gibbons, Ziyun Li

分类: cs.CV, cs.LG

发布日期: 2026-04-17

💡 一句话要点

AdaVFM：通过LLM引导的自适应视觉基础模型实现边缘智能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 边缘智能 视觉基础模型 大型语言模型 神经架构搜索 运行时自适应 模型压缩 零样本学习

📋 核心要点

现有视觉基础模型在边缘设备部署受限于延迟和功耗，难以兼顾精度与效率。
AdaVFM通过LLM引导的运行时自适应执行，动态调整计算，实现精度和效率的平衡。
实验表明，AdaVFM在精度和效率上均优于现有方法，显著降低了FLOPs。

📝 摘要（中文）

语言对齐的视觉基础模型(VFMs)能够实现多功能的视觉理解，从而支持常时在线的上下文AI，但其在边缘设备上的部署受到严格的延迟和功耗约束。我们提出了AdaVFM，一个自适应框架，用于对语言对齐的VFMs进行高效的设备端推理，该框架可以根据场景上下文和任务复杂度动态调整计算。我们的关键见解是，模型大小缩减对性能的影响在视觉应用中是任务相关的，这促使我们采用运行时自适应执行策略。AdaVFM将神经架构搜索(NAS)集成到语言对齐的VFM骨干网络中，以支持运行时轻量级子网的执行。部署在云端的多模态大型语言模型(LLM)通过上下文感知的代理实现运行时控制。这种协同作用允许在不同条件下进行有效的模型自适应，同时保持强大的准确性。在零样本分类和开放词汇分割上的大量实验表明，AdaVFM实现了最先进的精度-效率权衡，在IN1K上的acc@1指标上超过了先前的基线高达7.9%，在ADE20K上的mIoU指标上超过了5.2%，优于具有可比VFM大小的最佳模型。对于具有相似精度的模型，AdaVFM进一步将平均FLOPs降低了高达77.9%。

🔬 方法详解

问题定义：现有语言对齐的视觉基础模型（VFMs）虽然在视觉理解方面表现出色，但由于其庞大的模型尺寸和计算复杂度，难以直接部署在资源受限的边缘设备上。现有的模型压缩方法，如剪枝和量化，虽然可以减小模型大小，但通常会导致显著的精度下降。此外，不同视觉任务对模型大小的需求不同，静态的模型压缩策略无法适应动态变化的场景需求。

核心思路：AdaVFM的核心思路是利用运行时自适应执行策略，根据场景上下文和任务复杂度动态调整计算。具体来说，AdaVFM通过将神经架构搜索（NAS）集成到VFM骨干网络中，预先搜索并训练多个轻量级子网。在运行时，利用部署在云端的多模态大型语言模型（LLM）作为上下文感知的代理，根据当前场景和任务需求，动态选择合适的子网进行推理，从而在精度和效率之间取得平衡。

技术框架：AdaVFM的整体框架包含三个主要模块：1) 基于NAS的VFM骨干网络，用于搜索和训练多个轻量级子网；2) 部署在云端的多模态LLM，作为上下文感知的代理，用于根据场景和任务需求选择合适的子网；3) 运行时自适应执行引擎，用于动态加载和执行选定的子网。整个流程如下：首先，输入图像和任务描述被传递给云端的LLM代理。LLM代理根据图像内容和任务需求，选择合适的子网。然后，选定的子网被加载到边缘设备上，并对输入图像进行推理。最后，推理结果被返回给用户。

关键创新：AdaVFM的关键创新在于将神经架构搜索（NAS）与运行时自适应执行相结合，并利用多模态LLM作为上下文感知的代理。与传统的静态模型压缩方法相比，AdaVFM能够根据场景和任务需求动态调整计算，从而在精度和效率之间取得更好的平衡。此外，利用LLM作为代理可以更好地理解用户意图和场景上下文，从而做出更明智的子网选择。

关键设计：AdaVFM的关键设计包括：1) 使用差分神经架构搜索（Differentiable NAS）来高效地搜索轻量级子网；2) 设计了一种多模态LLM代理，该代理可以同时接收图像和文本输入，并根据图像内容和任务需求选择合适的子网；3) 实现了一种高效的运行时自适应执行引擎，该引擎可以动态加载和执行选定的子网，并支持多种硬件平台。

🖼️ 关键图片

📊 实验亮点

AdaVFM在零样本分类和开放词汇分割任务上取得了显著的性能提升。在IN1K数据集上，AdaVFM的acc@1指标超过了先前的基线高达7.9%。在ADE20K数据集上，AdaVFM的mIoU指标超过了5.2%，优于具有可比VFM大小的最佳模型。对于具有相似精度的模型，AdaVFM进一步将平均FLOPs降低了高达77.9%，表明其在精度和效率方面均优于现有方法。

🎯 应用场景

AdaVFM适用于各种需要低延迟和低功耗的边缘智能应用，例如智能监控、自动驾驶、机器人导航和增强现实。通过动态调整计算资源，AdaVFM可以在资源受限的边缘设备上实现高性能的视觉理解，从而为这些应用带来更智能、更高效的解决方案。未来，AdaVFM有望推动边缘计算的发展，并为更多智能设备赋能。

📄 摘要（原文）

Language-aligned vision foundation models (VFMs) enable versatile visual understanding for always-on contextual AI, but their deployment on edge devices is hindered by strict latency and power constraints. We present AdaVFM, an adaptive framework for efficient on-device inference of language-aligned VFMs that dynamically adjusts computation based on scene context and task complexity. Our key insight is that the effect of model size reduction on performance is task-dependent in vision applications, motivating a runtime-adaptive execution strategy. AdaVFM integrates neural architecture search (NAS) into the language-aligned VFM backbone to enable lightweight subnet execution during runtime. A multimodal large language model (LLM) deployed on the cloud enables runtime control with a context-aware agent. This synergy allows efficient model adaptation under diverse conditions while maintaining strong accuracy. Extensive experiments on zero-shot classification and open-vocabulary segmentation demonstrate that AdaVFM achieves state-of-the-art accuracy-efficiency trade-offs, surpassing prior baselines by up to $7.9\%$ in acc@1 on IN1K and $5.2\%$ mIoU on ADE20K over the best models of comparable VFM sizes. For models with similar accuracy, AdaVFM further reduces average FLOPs by up to $77.9\%$.

AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理