EdgeFM: Efficient Edge Inference for Vision-Language Models

📄 arXiv: 2604.27476v1 📥 PDF

作者: Mengling Deng, Yuanpeng Chen, Sheng Yang, Wei Tao, Wenhai Zhang, Hui Song, Linyuanhao Qin, Kai Zhao, Xiaojun Ye, Shanhui Mo, Jingli Fan, Shuang Zhang, Bei Liu, Tiankun Zhao, Xiangjing An

分类: cs.CV

发布日期: 2026-04-30

备注: Technique Report version


💡 一句话要点

EdgeFM:面向跨平台工业边缘场景的高效视觉-语言模型推理框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 边缘推理 AI代理优化 跨平台部署 内核优化 模块化设计 低延迟 地平线Journey

📋 核心要点

  1. 现有VLM部署方案存在通用性冗余或硬件锁定的问题,难以满足边缘设备低延迟和资源约束的需求。
  2. EdgeFM通过AI代理驱动的内核优化和模块化技能库,实现了轻量级、跨平台的VLM/LLM推理。
  3. EdgeFM在主流平台和国产地平线Journey平台上验证,性能优于传统工具链,最高加速1.49倍。

📝 摘要(中文)

视觉-语言模型(VLMs)在边缘工业应用中展现出强大的适用性,但其部署仍然受到确定性低延迟和资源限制下稳定执行的要求的严重制约。现有的框架要么依赖于臃肿的通用设计,要么迫使开发者进入不透明的、特定于硬件的闭源生态系统,导致硬件锁定限制和较差的跨平台适应性。我们观察到,现代AI代理可以有效地搜索和调整配置,为标准LLM算子生成高度优化的底层内核,因此我们提出了EdgeFM,这是一个轻量级的、代理驱动的VLM/LLM推理框架,专为跨平台工业边缘部署而定制。EdgeFM消除了非必要的功能以减少单请求延迟,并将代理调优的内核优化封装为可重用的模块化技能库。通过允许直接调用这些技能,而不是等待闭源实现,它有效地缩小了长期以来由专有工具链主导的性能差距。该框架原生支持包括x86和NVIDIA Orin SoC在内的主流平台,并且代表了在国产地平线Journey平台上首次实现端到端VLA部署,从而增强了跨平台可移植性。在大多数情况下,它产生了明显优于传统供应商特定工具链的推理性能,在NVIDIA Orin平台上实现了比TensorRT-Edge-LLM高达1.49倍的加速。实验结果表明,EdgeFM提供了良好的端到端推理性能,为各种边缘工业场景提供了开源的、生产级的解决方案。

🔬 方法详解

问题定义:现有视觉-语言模型(VLM)在边缘设备上的部署面临挑战,主要痛点在于:一是通用框架的臃肿导致高延迟;二是依赖特定硬件厂商的闭源工具链,缺乏跨平台能力和灵活性。这限制了VLM在资源受限的工业边缘场景中的应用。

核心思路:EdgeFM的核心思路是构建一个轻量级、可移植且高性能的VLM推理框架。它通过移除不必要的功能来降低延迟,并利用AI代理自动搜索和优化底层内核,生成高度优化的算子实现。这些优化后的内核被封装成可重用的模块化技能库,供用户直接调用。

技术框架:EdgeFM的整体框架包含以下几个主要模块:1) 轻量级推理引擎:移除冗余功能,减少单请求延迟。2) AI代理驱动的内核优化器:自动搜索和调整内核配置,生成高性能算子。3) 模块化技能库:封装优化后的内核,提供可重用的API。4) 跨平台支持层:适配不同的硬件平台,如x86、NVIDIA Orin和地平线Journey。

关键创新:EdgeFM的关键创新在于:1) 采用AI代理自动优化底层内核,避免了手动调优的复杂性。2) 构建模块化技能库,实现了内核的复用和跨平台移植。3) 提供了一个开源的、生产级的VLM推理解决方案,打破了厂商闭源工具链的垄断。

关键设计:EdgeFM的关键设计包括:1) AI代理的搜索空间设计,包括算子融合、数据排布优化等。2) 模块化技能库的API设计,保证易用性和可扩展性。3) 跨平台支持层的适配策略,针对不同硬件平台的特性进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EdgeFM在NVIDIA Orin平台上实现了比TensorRT-Edge-LLM高达1.49倍的加速。此外,EdgeFM还在国产地平线Journey平台上实现了首次端到端VLA部署,验证了其跨平台能力。实验结果表明,EdgeFM在端到端推理性能方面表现出色,为边缘工业场景提供了一个有竞争力的开源解决方案。

🎯 应用场景

EdgeFM适用于各种工业边缘场景,例如智能制造、智慧城市、自动驾驶等。它可以加速VLM在边缘设备上的部署,实现低延迟、高效率的视觉-语言理解任务,例如图像分类、目标检测、场景理解等。该研究有助于推动VLM在实际工业应用中的普及,并促进边缘智能的发展。

📄 摘要(原文)

Vision-language models (VLMs) have demonstrated strong applicability in edge industrial applications, yet their deployment remains severely constrained by requirements for deterministic low latency and stable execution under resource limitations. Existing frameworks either rely on bloated general-purpose designs or force developers into opaque, hardware-specific closed-source ecosystems, leading to hardware lock-in limitation and poor cross-platform adaptability. Observing that modern AI agents can efficiently search and tune configurations to generate highly optimized low-level kernels for standard LLM operators, we propose EdgeFM, a lightweight, agent-driven VLM/LLM inference framework tailored for cross-platform industrial edge deployment. EdgeFM removes non-essential features to reduce single-request latency, and encapsulates agent-tuned kernel optimizations as a modular library of reusable skills. By allowing direct invocation of these skills rather than waiting for closed-source implementations, it effectively closes the performance gap long dominated by proprietary toolchains. The framework natively supports mainstream platforms including x86 and NVIDIA Orin SoCs, and represents the first end-to-end VLA deployment on the domestic Horizon Journey platform, enhancing cross-platform portability. In most cases, it yields clearly better inference performance than conventional vendor-specific toolchains, achieving up to 1.49 times speedup over TensorRT-Edge-LLM on the NVIDIA Orin platform. Experimental results show that EdgeFM delivers favorable end-to-end inference performance, providing an open-source, production-grade solution for diverse edge industrial scenarios.