R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
作者: Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
分类: cs.CL, cs.AI, cs.LG, cs.PF
发布日期: 2025-05-27 (更新: 2025-11-05)
🔗 代码/项目: GITHUB
💡 一句话要点
R2R:通过小-大模型Token路由高效导航发散推理路径
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Token路由 大小模型 推理加速 动态选择 语言模型 模型蒸馏
📋 核心要点
- 大型语言模型推理成本高昂,小型语言模型虽然高效但推理能力不足,无法有效复现大型模型的推理路径。
- R2R方法的核心思想是只对大型模型和小模型推理路径发散的关键token使用大型模型,其余token由小型模型生成。
- 实验结果表明,R2R方法在保证性能的同时,显著降低了推理成本,在数学、代码和问答任务上超越了同等参数规模的模型。
📝 摘要(中文)
大型语言模型(LLMs)实现了令人印象深刻的推理能力,但代价是巨大的推理开销,这带来了巨大的部署挑战。虽然蒸馏的小型语言模型(SLMs)显著提高了效率,但它们的性能会下降,因为它们无法遵循LLMs的推理路径。幸运的是,我们发现只有一小部分token真正导致LLMs和SLMs之间的推理路径发散。大多数生成的token要么是相同的,要么表现出中性的差异,例如缩写或表达方式的细微变化。利用这一洞察力,我们引入了Roads to Rome (R2R),这是一种神经token路由方法,仅对这些关键的、路径发散的token选择性地使用LLMs,而将大部分token生成留给SLM。我们还开发了一个自动数据生成pipeline,用于识别发散token并生成token级路由标签,以训练轻量级路由器。我们将R2R应用于DeepSeek系列的R1-1.5B和R1-32B模型,并在具有挑战性的数学、编码和QA基准上进行评估。R2R的平均激活参数大小为5.6B,超过了R1-7B的平均准确率1.6倍,甚至优于R1-14B模型。与R1-32B相比,它提供了2.8倍的实际加速,同时保持了相当的性能,从而提高了测试时缩放效率的Pareto前沿。我们的代码可在https://github.com/thu-nics/R2R获得。
🔬 方法详解
问题定义:论文旨在解决大型语言模型推理成本高,小型语言模型推理能力不足的问题。现有方法要么牺牲性能换取效率,要么牺牲效率保证性能,无法兼顾。现有方法的痛点在于,没有充分利用大型模型和小模型之间的冗余信息,对所有token都采用相同的处理方式。
核心思路:论文的核心思路是,并非所有token都对推理路径有重要影响,只有少数token会导致推理路径发散。因此,可以只对这些关键token使用大型模型,其余token使用小型模型,从而在保证性能的同时降低推理成本。这种token级别的动态路由策略,可以充分利用大小模型的优势。
技术框架:R2R方法包含以下主要模块:1) 数据生成pipeline,用于自动识别大型模型和小模型之间的发散token,并生成token级别的路由标签。2) 轻量级路由器,用于根据输入token的特征,预测是否需要使用大型模型。3) 推理引擎,根据路由器的决策,动态地选择使用大型模型或小型模型生成token。整体流程是,给定输入,首先由路由器预测每个token是否需要使用大型模型,然后推理引擎根据路由器的决策,选择相应的模型生成token。
关键创新:R2R方法最重要的技术创新点在于token级别的动态路由策略。与现有方法相比,R2R不是静态地选择使用大型模型或小型模型,而是根据输入token的特征,动态地选择使用哪个模型。这种动态路由策略可以更有效地利用大小模型的优势,从而在保证性能的同时降低推理成本。
关键设计:R2R方法的关键设计包括:1) 数据生成pipeline的设计,需要有效地识别发散token,并生成高质量的路由标签。2) 路由器的设计,需要足够轻量级,以避免引入过多的计算开销,同时需要足够准确,以保证推理性能。3) 推理引擎的设计,需要高效地切换大小模型,以降低推理延迟。论文中使用了DeepSeek系列的R1-1.5B和R1-32B模型,并设计了相应的损失函数来训练路由器。
🖼️ 关键图片
📊 实验亮点
R2R方法在数学、代码和问答任务上进行了评估。实验结果表明,R2R方法在平均激活参数大小为5.6B的情况下,超过了R1-7B的平均准确率1.6倍,甚至优于R1-14B模型。与R1-32B相比,R2R方法提供了2.8倍的实际加速,同时保持了相当的性能,显著提高了测试时缩放效率。
🎯 应用场景
R2R方法具有广泛的应用前景,可以应用于各种需要高性能和低延迟的场景,例如智能客服、自动驾驶、游戏AI等。通过R2R方法,可以在资源受限的设备上部署大型语言模型,从而提高用户体验。未来,R2R方法还可以与其他模型压缩技术相结合,进一步降低推理成本。
📄 摘要(原文)
Large Language Models (LLMs) achieve impressive reasoning capabilities at the cost of substantial inference overhead, posing substantial deployment challenges. Although distilled Small Language Models (SLMs) significantly enhance efficiency, their performance suffers as they fail to follow LLMs' reasoning paths. Luckily, we reveal that only a small fraction of tokens genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens are either identical or exhibit neutral differences, such as minor variations in abbreviations or expressions. Leveraging this insight, we introduce Roads to Rome (R2R), a neural token routing method that selectively utilizes LLMs only for these critical, path-divergent tokens, while leaving the majority of token generation to the SLM. We also develop an automatic data generation pipeline that identifies divergent tokens and generates token-level routing labels to train the lightweight router. We apply R2R to combine R1-1.5B and R1-32B models from the DeepSeek family, and evaluate on challenging math, coding, and QA benchmarks. With an average activated parameter size of 5.6B, R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with comparable performance, advancing the Pareto frontier of test-time scaling efficiency. Our code is available at https://github.com/thu-nics/R2R.