RelayLLM: Efficient Reasoning via Collaborative Decoding

作者: Chengsong Huang, Tong Zheng, Langlin Huang, Jinyuan Li, Haolin Liu, Jiaxin Huang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-01-08

💡 一句话要点

RelayLLM：提出一种基于协同解码的高效推理框架，显著降低大语言模型的计算成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 小语言模型 协同推理 token级别解码 策略优化

📋 核心要点

现有协同方法粒度粗糙，将整个查询卸载到LLM，当SLM能够处理大部分推理步骤时，导致计算资源的浪费。
RelayLLM的核心思想是让SLM作为主动控制器，仅在关键token处动态调用LLM，实现token级别的协同解码，从而提高效率。
实验结果表明，RelayLLM在六个基准测试中取得了显著的性能提升，同时大幅降低了LLM的调用频率，降低了计算成本。

📝 摘要（中文）

针对复杂推理任务中大语言模型（LLM）计算成本高、延迟大的问题，以及小语言模型（SLM）推理能力不足的现状，本文提出RelayLLM，一种基于token级别协同解码的高效推理框架。与粗粒度的级联或路由方法不同，RelayLLM使SLM能够作为主动控制器，仅在关键token处通过特殊命令动态调用LLM，从而有效地“传递”生成过程。我们引入了一个两阶段训练框架，包括预热和组相对策略优化（GRPO），以训练模型在独立性和策略性寻求帮助之间取得平衡。在六个基准测试上的实验结果表明，RelayLLM实现了平均49.52%的准确率，有效弥合了两个模型之间的性能差距。值得注意的是，这仅通过调用LLM生成总token的1.07%来实现，与性能匹配的随机路由器相比，成本降低了98.2%。

🔬 方法详解

问题定义：现有方法在利用大小语言模型协同推理时，要么完全依赖LLM，要么采用粗粒度的路由策略，无法充分利用SLM的推理能力，导致计算资源浪费。尤其是在SLM能够处理大部分推理步骤的情况下，仍然将整个查询交给LLM，效率低下。因此，需要一种更细粒度的协同推理方法，能够根据推理的难易程度动态地选择合适的模型。

核心思路：RelayLLM的核心思路是让SLM扮演一个“中继”的角色，在生成token的过程中，SLM首先尝试独立生成，当遇到自身无法处理的复杂token时，通过一个特殊的“relay”命令，将生成过程传递给LLM。LLM生成相应的token后，再将控制权交还给SLM。这样，LLM只负责处理最关键的token，从而大大降低了计算成本。

技术框架：RelayLLM的整体框架包含一个SLM和一个LLM。SLM作为主动控制器，负责大部分token的生成。当SLM遇到困难时，会生成一个特殊的“relay” token，触发LLM的调用。LLM生成token后，将控制权返回给SLM。整个过程是token级别的动态切换。为了训练SLM学会何时以及如何调用LLM，论文提出了一个两阶段的训练框架，包括warm-up和Group Relative Policy Optimization (GRPO)。

关键创新：RelayLLM最重要的创新点在于token级别的协同解码。与现有的粗粒度方法相比，RelayLLM能够更精细地控制LLM的调用，从而在保证推理性能的同时，显著降低计算成本。此外，GRPO训练方法能够有效地训练SLM学会何时寻求LLM的帮助，从而实现最佳的协同效果。

关键设计：RelayLLM的关键设计包括：1) 定义了一个特殊的“relay” token，用于触发LLM的调用；2) 设计了一个两阶段的训练框架，包括warm-up和GRPO。Warm-up阶段用于初始化SLM的参数，使其具备一定的推理能力。GRPO阶段用于训练SLM学会何时以及如何调用LLM。GRPO的目标是最大化整体的奖励，同时考虑SLM和LLM的相对性能。

📊 实验亮点

实验结果表明，RelayLLM在六个基准测试中取得了显著的性能提升。例如，在平均准确率方面，RelayLLM达到了49.52%，有效弥合了SLM和LLM之间的性能差距。更重要的是，RelayLLM仅调用LLM生成总token的1.07%，与性能匹配的随机路由器相比，成本降低了98.2%。这表明RelayLLM能够在保证推理性能的同时，显著降低计算成本。

🎯 应用场景

RelayLLM具有广泛的应用前景，可以应用于各种需要复杂推理的场景，例如问答系统、对话系统、代码生成等。通过利用SLM和LLM的优势，RelayLLM可以在保证推理性能的同时，显著降低计算成本，从而使得这些应用能够部署在资源受限的设备上。此外，RelayLLM还可以促进LLM在边缘计算等领域的应用。

📄 摘要（原文）

Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.

RelayLLM: Efficient Reasoning via Collaborative Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理