CoVSpec: Efficient Device-Edge Co-Inference for Vision-Language Models via Speculative Decoding
作者: Yuanyuan Jia, Shunpu Tang, Qianqian Yang
分类: cs.AI
发布日期: 2026-05-04
备注: 6 pages, 2 tables, 1 figure. Submitted to IEEE Globecom 2026
💡 一句话要点
提出CoVSpec,通过推测解码实现视觉-语言模型在端-边协同推理中的高效部署。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 端-边协同推理 推测解码 视觉Token缩减 自适应草稿策略
📋 核心要点
- 大型视觉-语言模型部署在移动端面临计算和内存挑战,直接应用推测解码效率低,视觉token计算量大,通信开销高。
- CoVSpec通过视觉token缩减、自适应草稿策略和并行分支机制,优化端-边协同推理,提升VLM的推理效率。
- 实验结果表明,CoVSpec在不损失任务精度的情况下,吞吐量提升高达2.21倍,通信开销降低超过96%。
📝 摘要(中文)
视觉-语言模型(VLM)在多模态感知和推理方面表现出强大的能力。然而,由于其巨大的计算和内存需求,在移动设备上部署大型VLM仍然具有挑战性。一种可行的替代方案是端-边协同推理,其中移动设备上的轻量级草稿VLM与边缘服务器上的大型目标VLM通过推测解码进行协作。然而,直接将推测解码扩展到VLM会由于过多的视觉token计算和高通信开销而导致严重的效率低下。为了应对这些挑战,我们提出了一种高效的VLM协同推测解码框架CoVSpec。具体来说,我们首先开发了一种免训练的视觉token减少框架,该框架通过联合考虑查询相关性、token活动和低秩依赖性来修剪移动设备上的冗余视觉token。此外,我们设计了一种自适应草稿策略,可以动态调整验证频率和草稿长度。此外,我们引入了一种具有解耦验证-校正的并行分支机制,以提高目标端验证期间的草稿端利用率,并减少与校正相关的传输开销。在多个基准测试上的实验表明,CoVSpec实现了比仅目标端推理高2.21倍的吞吐量,并且与基线相比,通信开销降低了96%以上,同时不影响任务准确性。
🔬 方法详解
问题定义:现有视觉-语言模型(VLM)部署在移动设备上时,面临着计算资源和内存的限制。直接将推测解码应用于VLM时,由于需要处理大量的视觉token,导致计算开销巨大,同时端-边之间频繁的通信也带来了显著的延迟,严重影响了推理效率。因此,如何在资源受限的移动设备上高效地进行VLM的端-边协同推理是一个关键问题。
核心思路:CoVSpec的核心思路是通过减少视觉token的计算量和优化端-边之间的通信,从而提高VLM的推理效率。具体来说,CoVSpec首先在移动端对视觉token进行剪枝,去除冗余信息,减少计算负担。然后,通过自适应的草稿策略动态调整验证频率和草稿长度,平衡计算和通信开销。最后,利用并行分支机制,提高草稿端的利用率,并减少校正相关的传输开销。
技术框架:CoVSpec的整体框架包括以下几个主要模块:1) 视觉Token缩减模块:在移动端,利用免训练的方法,根据查询相关性、token活动和低秩依赖性,对视觉token进行剪枝,减少计算量。2) 自适应草稿策略模块:动态调整验证频率和草稿长度,以适应不同的输入和模型状态,平衡计算和通信开销。3) 并行分支机制模块:在目标端进行验证的同时,草稿端可以并行地进行后续的推理,提高草稿端的利用率。同时,解耦验证和校正过程,减少校正相关的传输开销。
关键创新:CoVSpec的关键创新在于以下几个方面:1) 免训练的视觉Token缩减方法:无需额外的训练数据,即可有效地减少视觉token的数量,降低计算负担。2) 自适应草稿策略:能够根据不同的输入和模型状态,动态调整验证频率和草稿长度,实现更高效的推理。3) 并行分支机制:通过并行执行验证和推理,提高了草稿端的利用率,并减少了通信开销。与传统的推测解码方法相比,CoVSpec更加注重对视觉token的处理和端-边协同的优化。
关键设计:在视觉Token缩减模块中,采用了基于查询相关性、token活动和低秩依赖性的剪枝策略。查询相关性通过计算视觉token与文本查询之间的相似度来衡量。Token活动通过统计每个token在不同层中的激活程度来评估。低秩依赖性则利用矩阵分解来识别冗余的token。自适应草稿策略通过一个强化学习模型来动态调整验证频率和草稿长度。并行分支机制则通过解耦验证和校正过程,减少了校正相关的传输开销。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoVSpec在多个基准测试上实现了显著的性能提升。与仅目标端推理相比,CoVSpec的吞吐量提高了高达2.21倍。同时,与基线方法相比,CoVSpec的通信开销降低了超过96%,而任务准确性没有受到明显影响。这些结果验证了CoVSpec在端-边协同推理中的高效性和有效性。
🎯 应用场景
CoVSpec适用于各种需要端-边协同推理的视觉-语言应用场景,例如智能助手、自动驾驶、机器人导航等。该方法可以有效降低移动设备的计算负担和通信开销,提高推理效率,从而实现更流畅、更实时的用户体验。未来,CoVSpec有望推动大型VLM在资源受限设备上的广泛应用。
📄 摘要(原文)
Vision-language models (VLMs) have demonstrated strong capabilities in multimodal perception and reasoning. However, deploying large VLMs on mobile devices remains challenging due to their substantial computational and memory demands. A practical alternative is device-edge co-inference, where a lightweight draft VLM on the mobile device collaborates with a larger target VLM on the edge server via speculative decoding. Nevertheless, directly extending speculative decoding to VLMs suffers from severe inefficiency due to excessive visual-token computation and high communication overhead. To address these challenges, we propose CoVSpec, an efficient collaborative speculative decoding framework for VLM inference. Specifically, we first develop a training-free visual token reduction framework that prunes redundant visual tokens on the mobile device by jointly considering query relevance, token activity, and low-rank dependency. Moreover, we design an adaptive drafting strategy that dynamically adjusts both the verification frequency and the draft length. In addition, we introduce a parallel branching mechanism with decoupled verification-correction to improve draft-side utilization during target-side verification and reduce correction-related transmission overhead. Experiments on multiple benchmarks show that CoVSpec achieves up to 2.21x higher throughput than target-only inference and reduces communication overhead by more than 96% compared with baselines, without compromising task accuracy.