GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference

作者: Zengzipeng Tang, Yuxuan Sun, Wei Chen, Jianwen Ding, Bo Ai

分类: cs.NI, cs.DC, cs.IT, cs.LG

发布日期: 2026-05-11

备注: This work has been submitted to the IEEE for possible publication

💡 一句话要点

提出GELATO框架，通过生成熵与李雅普诺夫优化实现端边协同推断中的自适应Token卸载

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 投机解码 边缘计算 李雅普诺夫优化 资源调度 端边协同

📋 核心要点

现有端边协同推断难以在资源受限环境下，针对动态变化的Token生成需求实现高效的逐Token资源调度。
GELATO通过李雅普诺夫优化管理长期能耗权衡，并结合熵驱动的提前退出机制实现动态自适应的Token卸载。
实验证明GELATO在资源受限环境下显著提升了吞吐量并降低了能耗，优于当前主流的分布式投机解码架构。

📝 摘要（中文）

随着端侧大语言模型（LLM）推断的兴起，端边协同推断备受关注。投机解码（Speculative Decoding, SD）作为一种主流架构，利用轻量级草稿模型快速生成候选Token，并由高性能目标模型进行验证。然而，如何在资源受限的边缘环境中实现逐Token的资源调度以适配SD范式仍是核心挑战。本文提出了GELATO框架，旨在最大化能量约束下的解码吞吐量。该框架通过外层的李雅普诺夫漂移加惩罚循环进行在线决策，设定草稿预算以平衡长期能耗与吞吐量；同时，内层采用熵驱动的生成机制，通过提前退出策略适应逐Token的生成不确定性。理论分析证明了GELATO在长期吞吐量上的性能界限。实验表明，GELATO在资源受限环境下实现了全局最优权衡，吞吐量较现有分布式SD架构提升64.98%，能耗降低47.47%，且保持了模型输出质量。

🔬 方法详解

问题定义：论文旨在解决端边协同投机解码（SD）中，如何在有限的边缘计算资源与能量预算下，动态决定哪些Token应由端侧草稿模型生成，哪些应卸载至边缘服务器，以最大化整体解码吞吐量。

核心思路：引入控制理论中的李雅普诺夫优化（Lyapunov Optimization）来处理长期能耗约束，并结合生成过程中的不确定性（熵）作为动态决策依据，实现对计算任务的精细化调度。

技术框架：GELATO包含双层架构：外层是基于李雅普诺夫漂移加惩罚的调度器，负责根据当前能量状态动态调整草稿预算；内层是熵驱动的生成机制，根据当前Token的生成置信度决定是否提前退出或卸载任务。

关键创新：首次将李雅普诺夫优化应用于LLM推断的资源调度，实现了从静态卸载到逐Token动态自适应卸载的范式转变，有效解决了长期能耗与实时吞吐量之间的矛盾。

关键设计：利用生成熵作为衡量Token生成难度的指标，当熵值低于阈值时触发提前退出；通过李雅普诺夫函数构建虚拟队列，将能量约束转化为在线优化问题，确保系统在满足能耗上限的同时最大化吞吐量。

🖼️ 关键图片

📊 实验亮点

GELATO在资源受限环境下表现卓越，相较于当前最先进的分布式投机解码架构，其Token解码吞吐量提升了64.98%，能耗降低了47.47%。实验验证了该方法在保持模型生成质量的同时，实现了能耗与性能的全局最优权衡。

🎯 应用场景

该研究适用于智能手机、物联网设备等资源受限的边缘计算场景。通过优化端边协同的LLM推断流程，GELATO能够显著提升移动端AI助手的响应速度与续航能力，为实时语音交互、离线文档处理等高负载AI应用提供高效的部署方案。

📄 摘要（原文）

The recent growth of on-device Large Language Model (LLM) inference has driven significant interest in device-edge collaborative LLM inference. As a promising architecture, Speculative Decoding (SD) is increasingly adopted where a lightweight draft model rapidly generates candidate tokens to be verified by a powerful target model. However, a fundamental challenge lies in achieving per-token resource scheduling to effectively adapt SD paradigm to resource-constrained edge environment. This paper proposes a Generative Entropy- and Lyapunov-based Adaptive Token Offloading framework, named GELATO, to maximize decoding throughput under energy constraints in a device-edge collaborative SD system. Specifically, an outer drift-plus-penalty loop makes online decisions to establish a reference drafting budget, managing long-term energy-throughput trade-off. Further, a nested entropy-driven generation mechanism executes early exiting to adapt to per-token dynamic generative uncertainty. Theoretical analysis establishes a rigorous performance bound on long-term throughput for GELATO. Extensive evaluations demonstrate that GELATO achieves a globally optimal tradeoff, outperforming state-of-the-art distributed SD architectures by 64.98% in token throughput and reducing energy consumption by 47.47% under resource-constrained environments, while preserving LLM decoding quality.

GELATO: Generative Entropy- and Lyapunov-based Adaptive Token Offloading for Device-Edge Speculative LLM Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理