MMEdge: Accelerating On-device Multimodal Inference via Pipelined Sensing and Encoding

📄 arXiv: 2510.25327v5 📥 PDF

作者: Runxi Huang, Mingxuan Yu, Mingyu Tsoi, Xiaomin Ouyang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-29 (更新: 2025-11-18)

备注: Code available at: https://github.com/HKUST-MINSys-Lab/MMEdge. Accepted by SenSys 2026


💡 一句话要点

MMEdge:通过流水线式感知和编码加速端侧多模态推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端侧推理 多模态融合 流水线处理 边缘计算 自适应优化 无人机应用 实时系统

📋 核心要点

  1. 现有方法忽略了边缘设备上多模态推理中感知动态与模型执行的紧密耦合以及模态间的复杂依赖关系。
  2. MMEdge通过流水线式感知和编码,将推理过程分解为细粒度单元,实现增量计算,并利用时序聚合模块保持精度。
  3. 实验表明,MMEdge在无人机平台上显著降低了端到端延迟,同时保持了较高的任务准确性,验证了其有效性。

📝 摘要(中文)

在资源受限的边缘设备上进行实时多模态推理对于自动驾驶、人机交互和移动健康等应用至关重要。然而,先前的工作通常忽略了感知动态和模型执行之间的紧密耦合,以及复杂的多模态依赖关系。本文提出了一种新的端侧多模态推理框架MMEdge,该框架基于流水线式感知和编码。MMEdge没有等待完整的传感器输入,而是将整个推理过程分解为一系列细粒度的感知和编码单元,从而允许计算随着数据的到达而增量进行。MMEdge还引入了一个轻量级但有效的时序聚合模块,该模块捕获不同流水线单元之间的丰富时序动态,以保持准确性性能。这种流水线设计还为推理期间的细粒度跨模态优化和早期决策提供了机会。为了进一步提高资源可变性和输入数据复杂性下的系统性能,MMEdge包含一个自适应多模态配置优化器,该优化器动态地为每个模态选择延迟约束下的最佳感知和模型配置,以及一种跨模态推测跳过机制,当早期预测达到足够的置信度时,该机制会绕过较慢模态的未来单元。我们使用两个公共多模态数据集评估MMEdge,并将其部署在基于无人机的真实多模态测试平台上。结果表明,MMEdge在各种系统和数据动态下,显著降低了端到端延迟,同时保持了较高的任务准确性。

🔬 方法详解

问题定义:论文旨在解决资源受限的边缘设备上实时多模态推理的挑战。现有方法通常需要等待完整的传感器数据输入,导致延迟较高,并且忽略了感知过程的动态性和模态之间的依赖关系,无法充分利用边缘设备的计算能力。

核心思路:MMEdge的核心思路是将多模态推理过程分解为流水线式的感知和编码单元,实现增量计算。通过在数据到达时立即进行计算,避免了等待完整数据带来的延迟。同时,利用时序聚合模块捕获不同流水线单元之间的时序动态,以保持推理的准确性。

技术框架:MMEdge的整体框架包含以下几个主要模块:1) 流水线式感知和编码单元:将推理过程分解为细粒度的感知和编码单元,每个单元处理一部分数据。2) 时序聚合模块:用于捕获不同流水线单元之间的时序动态,提高推理的准确性。3) 自适应多模态配置优化器:根据资源可用性和输入数据复杂度,动态选择每个模态的最佳感知和模型配置。4) 跨模态推测跳过机制:当早期预测达到足够的置信度时,跳过较慢模态的未来单元,进一步降低延迟。

关键创新:MMEdge的关键创新在于其流水线式的感知和编码设计,以及自适应的多模态配置优化和跨模态推测跳过机制。与现有方法相比,MMEdge能够更有效地利用边缘设备的计算资源,降低推理延迟,并提高在资源受限环境下的鲁棒性。

关键设计:MMEdge的关键设计包括:1) 细粒度的感知和编码单元的划分策略,需要平衡计算复杂度和延迟。2) 时序聚合模块的设计,需要选择合适的时序模型和聚合方法。3) 自适应多模态配置优化器的优化目标和约束条件,需要在延迟和准确性之间进行权衡。4) 跨模态推测跳过机制的置信度阈值设定,需要避免过早跳过导致精度下降。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MMEdge在两个公共多模态数据集和一个真实的无人机测试平台上进行了评估。实验结果表明,MMEdge能够显著降低端到端延迟,同时保持较高的任务准确性。具体的性能数据(例如延迟降低百分比和准确率提升百分比)在论文中进行了详细展示,并与现有基线方法进行了对比。

🎯 应用场景

MMEdge适用于各种需要在资源受限的边缘设备上进行实时多模态推理的应用,例如自动驾驶(传感器融合)、人机交互(语音和视觉结合)、移动健康(生理信号分析)和无人机应用。该框架能够显著降低延迟,提高响应速度,并提升用户体验,具有广阔的应用前景。

📄 摘要(原文)

Real-time multimodal inference on resource-constrained edge devices is essential for applications such as autonomous driving, human-computer interaction, and mobile health. However, prior work often overlooks the tight coupling between sensing dynamics and model execution, as well as the complex inter-modality dependencies. In this paper, we propose MMEdge, an new on-device multi-modal inference framework based on pipelined sensing and encoding. Instead of waiting for complete sensor inputs, MMEdge decomposes the entire inference process into a sequence of fine-grained sensing and encoding units, allowing computation to proceed incrementally as data arrive. MMEdge also introduces a lightweight but effective temporal aggregation module that captures rich temporal dynamics across different pipelined units to maintain accuracy performance. Such pipelined design also opens up opportunities for fine-grained cross-modal optimization and early decision-making during inference. To further enhance system performance under resource variability and input data complexity, MMEdge incorporates an adaptive multimodal configuration optimizer that dynamically selects optimal sensing and model configurations for each modality under latency constraints, and a cross-modal speculative skipping mechanism that bypasses future units of slower modalities when early predictions reach sufficient confidence. We evaluate MMEdge using two public multimodal datasets and deploy it on a real-world unmanned aerial vehicle (UAV)-based multimodal testbed. The results show that MMEdge significantly reduces end-to-end latency while maintaining high task accuracy across various system and data dynamics.