Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits

📄 arXiv: 2505.21594v1 📥 PDF

作者: Yeshwanth Venkatesha, Souvik Kundu, Priyadarshini Panda

分类: cs.RO, cs.AI, cs.DC

发布日期: 2025-05-27


💡 一句话要点

提出基于早退机制的快速低成本边缘-云推测解码框架,加速LLM在边缘设备的应用

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 大型语言模型 推测解码 早退机制 边缘-云协同 机器人控制 低延迟

📋 核心要点

  1. 现有边缘设备部署LLM依赖云端API,成本高昂且受限于设备算力,难以兼顾效率与精度。
  2. 提出一种边缘-云协同的推测解码框架,利用边缘设备的小模型进行草稿生成,云端大模型进行验证并引入早退机制。
  3. 实验表明,该方法在Jetson Nano和A100上,使用Vicuna和Llama2模型,延迟降低高达35%,并在机器人控制上加速21%。

📝 摘要(中文)

大型语言模型(LLM)使得智能手机、可穿戴设备和具身机器人等边缘设备上涌现出各种应用。然而,它们的部署通常依赖于昂贵的云端API,造成高昂的运营成本,限制了小型组织的访问,并引发了可持续性问题。某些LLM可以部署在设备上,提供了一种经济高效的解决方案,降低了延迟并提高了隐私。然而,有限的计算资源限制了可部署模型的大小和准确性,因此需要边缘和云之间的协同设计。我们提出了一种快速且经济高效的推测性边缘-云解码框架,该框架在服务器上使用大型目标模型,在设备上使用小型草稿模型。通过在目标模型中引入早退机制,可以在验证过程中生成token,允许客户端在最终验证之前抢先起草后续token,从而利用空闲时间并增强边缘和云之间的并行性。在使用NVIDIA Jetson Nano(客户端)和A100 GPU(服务器)以及Vicuna-68M(草稿)和Llama2-7B(目标)模型的情况下,与基于云的自回归解码相比,我们的方法实现了高达35%的延迟降低,并通过抢先起草额外提高了11%。为了展示实际应用性,我们将我们的方法部署在Unitree Go2四足机器人上,使用基于视觉-语言模型(VLM)的控制,实现了比传统基于云的自回归解码快21%的速度。这些结果证明了我们的框架在资源受限的边缘设备上实现实时LLM和VLM应用的潜力。

🔬 方法详解

问题定义:现有方法在边缘设备上部署大型语言模型时,面临着计算资源有限和延迟高的挑战。完全依赖云端API成本高昂,而完全在边缘设备上运行则受限于模型大小和精度。现有的边缘-云协同方法通常采用简单的卸载策略,无法充分利用边缘设备的计算能力,导致效率低下。

核心思路:该论文的核心思路是利用边缘设备的小型模型进行快速的草稿生成,同时利用云端的大型模型进行验证和修正。通过引入早退机制,云端模型可以在验证过程中提前生成token,使得边缘设备可以抢先起草后续token,从而实现边缘和云之间的并行计算,提高整体解码速度。

技术框架:该框架包含两个主要部分:边缘设备上的草稿模型和云端的目标模型。边缘设备首先使用草稿模型生成一系列token。然后,这些token被发送到云端的目标模型进行验证。目标模型在验证过程中,如果达到某个预定义的置信度阈值,则会提前退出,并生成下一个token。这个过程允许边缘设备在云端验证完成之前就开始起草后续的token,从而实现并行计算。

关键创新:该论文的关键创新在于引入了早退机制,并将其与边缘-云协同的推测解码相结合。传统的推测解码通常需要在云端完成整个token的验证后才能开始下一个token的生成,而早退机制允许在验证过程中提前生成token,从而提高了并行性,降低了延迟。

关键设计:早退机制的关键在于确定合适的置信度阈值。如果阈值设置过高,则会导致过多的token被拒绝,从而降低效率。如果阈值设置过低,则会导致生成的token质量下降。论文中可能采用了某种自适应阈值调整策略,或者通过实验确定了一个经验性的阈值。此外,草稿模型和目标模型的选择也是一个关键的设计因素。草稿模型需要足够小,以便在边缘设备上快速运行,但同时也要足够准确,以减少被目标模型拒绝的token数量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与传统的云端自回归解码相比,该方法在NVIDIA Jetson Nano和A100 GPU上,使用Vicuna-68M和Llama2-7B模型,实现了高达35%的延迟降低,并通过抢先起草额外提高了11%。在Unitree Go2四足机器人上的VLM控制实验中,实现了21%的速度提升,验证了该方法在实际应用中的有效性。

🎯 应用场景

该研究成果可广泛应用于资源受限的边缘设备上的LLM和VLM应用,例如智能手机、可穿戴设备和机器人。在机器人领域,可以实现更快速、更自然的语音交互和视觉理解,从而提高机器人的自主性和智能化水平。此外,该方法还可以降低云端计算成本,提高数据隐私性,促进LLM在各个领域的普及。

📄 摘要(原文)

Large Language Models (LLMs) enable various applications on edge devices such as smartphones, wearables, and embodied robots. However, their deployment often depends on expensive cloud-based APIs, creating high operational costs, which limit access for smaller organizations and raise sustainability concerns. Certain LLMs can be deployed on-device, offering a cost-effective solution with reduced latency and improved privacy. Yet, limited computing resources constrain the size and accuracy of models that can be deployed, necessitating a collaborative design between edge and cloud. We propose a fast and cost-effective speculative edge-cloud decoding framework with a large target model on the server and a small draft model on the device. By introducing early exits in the target model, tokens are generated mid-verification, allowing the client to preemptively draft subsequent tokens before final verification, thus utilizing idle time and enhancing parallelism between edge and cloud. Using an NVIDIA Jetson Nano (client) and an A100 GPU (server) with Vicuna-68M (draft) and Llama2-7B (target) models, our method achieves up to a 35% reduction in latency compared to cloud-based autoregressive decoding, with an additional 11% improvement from preemptive drafting. To demonstrate real-world applicability, we deploy our method on the Unitree Go2 quadruped robot using Vision-Language Model (VLM) based control, achieving a 21% speedup over traditional cloud-based autoregressive decoding. These results demonstrate the potential of our framework for real-time LLM and VLM applications on resource-constrained edge devices.