Bridging On-Device and Cloud LLMs for Collaborative Reasoning: A Unified Methodology for Local Routing and Post-Training
作者: Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Evan Chen, Christopher Brinton
分类: cs.LG
发布日期: 2025-09-28 (更新: 2026-01-29)
备注: We propose a unified post-training framework that integrates routing optimization, enabling the on-device LLM to improve its problem-solving ability while learning routing strategies
💡 一句话要点
提出一种设备-云协同推理方法,通过强化学习提升端侧LLM的路由和推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 设备-云协同 大语言模型 强化学习 推理路由 端侧模型
📋 核心要点
- 现有设备-云协同推理方法依赖外部路由器判断查询难度,难以有效处理复杂推理任务。
- 通过强化学习后训练,使端侧LLM具备内部判断并自主选择本地执行或云端卸载的能力。
- 实验表明,该方法在多个推理基准上显著优于现有方法,并缩小了与云端LLM的性能差距。
📝 摘要(中文)
本文提出了一种设备-云协同的大语言模型(LLM)部署方法,旨在利用轻量级的端侧模型实现效率,同时依赖强大的云端模型实现卓越的推理能力。该方法的核心挑战在于确定每个传入查询应该在本地处理还是卸载到云端。现有方法通常依赖外部路由器,但这些路由器难以仅从提示本身判断难度,尤其是在涉及复杂推理的任务中。为此,本文提出使端侧LLM能够在推理时内部决定是否调用云端协助,并通过基于强化学习的后训练来赋予其这种能力。通过将端侧LLM后训练建模为奖励最大化问题,设计了分层奖励以鼓励本地问题解决和明智的云端卸载。为了解决由此产生的问题,开发了一种算法,该算法具有可稳定优化的组级别策略梯度,以及可提供互补学习信号以减轻策略崩溃(即,仅本地执行或仅云端卸载)的自适应提示过滤。在多个推理基准上对端侧规模的LLaMA和Qwen模型进行的大量实验表明,该方法始终优于基线,并显着缩小了与完整云端LLM的差距。
🔬 方法详解
问题定义:现有设备-云协同推理方法依赖外部路由器,这些路由器难以准确判断prompt的难度,尤其是在复杂推理任务中。这导致要么不必要的云端卸载,增加延迟和成本,要么本地模型无法处理的任务被错误地执行,导致性能下降。因此,需要一种更智能的路由机制,能够根据prompt的内在难度动态地选择本地或云端执行。
核心思路:论文的核心思路是赋予端侧LLM自主决策能力,使其能够根据prompt的内容和自身的推理能力,决定是否需要云端协助。这种决策能力通过强化学习进行训练,目标是最大化整体的推理性能,同时最小化云端卸载的成本。通过奖励机制鼓励本地解决问题,并在必要时才使用云端资源。
技术框架:整体框架包含一个端侧LLM和一个云端LLM。端侧LLM接收输入prompt,并根据其内部策略决定是否将prompt卸载到云端。如果选择本地执行,则直接输出结果;如果选择云端卸载,则将prompt发送到云端LLM进行处理,并将云端LLM的输出作为最终结果。强化学习算法用于训练端侧LLM的决策策略,使其能够做出最优的路由决策。
关键创新:最重要的技术创新点在于将路由决策嵌入到端侧LLM内部,并通过强化学习进行训练。与传统的外部路由器相比,这种方法能够更准确地评估prompt的难度,并根据端侧LLM自身的推理能力做出决策。此外,论文还提出了组级别策略梯度和自适应prompt过滤,以稳定强化学习的训练过程,避免策略崩溃。
关键设计:论文设计了分层奖励函数,包括本地解决问题的奖励、成功云端卸载的奖励以及云端卸载的惩罚。组级别策略梯度通过对多个prompt进行分组,并计算组级别的梯度,来减少梯度方差,提高训练稳定性。自适应prompt过滤根据端侧LLM的决策结果,动态地调整训练prompt的分布,以提供更有效的学习信号。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个推理基准上显著优于基线方法,例如在某些任务上,性能提升超过10%。与完全依赖云端LLM相比,该方法在保持较高推理性能的同时,显著降低了云端卸载的频率,从而降低了成本和延迟。此外,该方法在不同规模的端侧LLM上都表现出良好的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要设备-云协同的场景,例如智能助手、自动驾驶、边缘计算等。通过将计算任务合理分配到端侧和云端,可以提高系统的效率、降低延迟、节省带宽,并保护用户隐私。未来的研究可以探索更复杂的路由策略、更高效的强化学习算法,以及更广泛的应用场景。
📄 摘要(原文)
Device-cloud collaboration holds promise for deploying large language models (LLMs), leveraging lightweight on-device models for efficiency while relying on powerful cloud models for superior reasoning. A central challenge in this setting is determining, for each incoming query, whether it should be processed locally or offloaded to the cloud. Existing approaches typically rely on external routers, which often struggle to determine difficulty from the prompt itself, especially for tasks involving complex reasoning. Motivated by this limitation, we propose enabling on-device LLMs to decide internally whether to invoke cloud assistance at inference time, with this capability instilled through reinforcement learning based post-training. Casting on-device LLM post-training as a reward maximization problem, we design hierarchical rewards to encourage local problem solving and judicious cloud offloading. To solve the resulting problem, we develop an algorithm featuring a group-level policy gradient that stabilizes optimization, together with adaptive prompt filtering that provides complementary learning signals to mitigate policy collapse (i.e., exclusive local execution or exclusive cloud offloading). Extensive experiments on on-device-scale LLaMA and Qwen models across multiple reasoning benchmarks show that our method consistently outperforms baselines and significantly narrows the gap to full cloud LLMs.