GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference
作者: Zengzipeng Tang, Yuxuan Sun, Wei Chen, Jianwen Ding, Bo Ai
分类: cs.NI, cs.DC, cs.IT, cs.LG
发布日期: 2026-05-11
备注: This work has been submitted to the IEEE for possible publication
💡 一句话要点
提出GELATO框架,通过生成熵与李雅普诺夫优化实现端边协同推断中的自适应Token卸载
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 投机解码 边缘计算 李雅普诺夫优化 资源调度 端边协同
📋 核心要点
- 现有端边协同推断难以在资源受限环境下,针对动态变化的Token生成需求实现高效的逐Token资源调度。
- GELATO通过李雅普诺夫优化管理长期能耗权衡,并结合熵驱动的提前退出机制实现动态自适应的Token卸载。
- 实验证明GELATO在资源受限环境下显著提升了吞吐量并降低了能耗,优于当前主流的分布式投机解码架构。
📝 摘要(中文)
随着端侧大语言模型(LLM)推断的兴起,端边协同推断备受关注。投机解码(Speculative Decoding, SD)作为一种主流架构,利用轻量级草稿模型快速生成候选Token,并由高性能目标模型进行验证。然而,如何在资源受限的边缘环境中实现逐Token的资源调度以适配SD范式仍是核心挑战。本文提出了GELATO框架,旨在最大化能量约束下的解码吞吐量。该框架通过外层的李雅普诺夫漂移加惩罚循环进行在线决策,设定草稿预算以平衡长期能耗与吞吐量;同时,内层采用熵驱动的生成机制,通过提前退出策略适应逐Token的生成不确定性。理论分析证明了GELATO在长期吞吐量上的性能界限。实验表明,GELATO在资源受限环境下实现了全局最优权衡,吞吐量较现有分布式SD架构提升64.98%,能耗降低47.47%,且保持了模型输出质量。
🔬 方法详解
问题定义:论文旨在解决端边协同投机解码(SD)中,如何在有限的边缘计算资源与能量预算下,动态决定哪些Token应由端侧草稿模型生成,哪些应卸载至边缘服务器,以最大化整体解码吞吐量。
核心思路:引入控制理论中的李雅普诺夫优化(Lyapunov Optimization)来处理长期能耗约束,并结合生成过程中的不确定性(熵)作为动态决策依据,实现对计算任务的精细化调度。
技术框架:GELATO包含双层架构:外层是基于李雅普诺夫漂移加惩罚的调度器,负责根据当前能量状态动态调整草稿预算;内层是熵驱动的生成机制,根据当前Token的生成置信度决定是否提前退出或卸载任务。
关键创新:首次将李雅普诺夫优化应用于LLM推断的资源调度,实现了从静态卸载到逐Token动态自适应卸载的范式转变,有效解决了长期能耗与实时吞吐量之间的矛盾。
关键设计:利用生成熵作为衡量Token生成难度的指标,当熵值低于阈值时触发提前退出;通过李雅普诺夫函数构建虚拟队列,将能量约束转化为在线优化问题,确保系统在满足能耗上限的同时最大化吞吐量。
🖼️ 关键图片
📊 实验亮点
GELATO在资源受限环境下表现卓越,相较于当前最先进的分布式投机解码架构,其Token解码吞吐量提升了64.98%,能耗降低了47.47%。实验验证了该方法在保持模型生成质量的同时,实现了能耗与性能的全局最优权衡。
🎯 应用场景
该研究适用于智能手机、物联网设备等资源受限的边缘计算场景。通过优化端边协同的LLM推断流程,GELATO能够显著提升移动端AI助手的响应速度与续航能力,为实时语音交互、离线文档处理等高负载AI应用提供高效的部署方案。
📄 摘要(原文)
The recent growth of on-device Large Language Model (LLM) inference has driven significant interest in device-edge collaborative LLM inference. As a promising architecture, Speculative Decoding (SD) is increasingly adopted where a lightweight draft model rapidly generates candidate tokens to be verified by a powerful target model. However, a fundamental challenge lies in achieving per-token resource scheduling to effectively adapt SD paradigm to resource-constrained edge environment. This paper proposes a Generative Entropy- and Lyapunov-based Adaptive Token Offloading framework, named GELATO, to maximize decoding throughput under energy constraints in a device-edge collaborative SD system. Specifically, an outer drift-plus-penalty loop makes online decisions to establish a reference drafting budget, managing long-term energy-throughput trade-off. Further, a nested entropy-driven generation mechanism executes early exiting to adapt to per-token dynamic generative uncertainty. Theoretical analysis establishes a rigorous performance bound on long-term throughput for GELATO. Extensive evaluations demonstrate that GELATO achieves a globally optimal tradeoff, outperforming state-of-the-art distributed SD architectures by 64.98% in token throughput and reducing energy consumption by 47.47% under resource-constrained environments, while preserving LLM decoding quality.