Token-Level LLM Collaboration via FusionRoute
作者: Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, Zhaorun Chen, Furong Huang, Shuchao Bi, Lizhu Zhang, Zhuokai Zhao
分类: cs.AI, cs.CL, cs.LG
发布日期: 2026-01-08
备注: 25 pages
💡 一句话要点
FusionRoute:一种基于token级LLM协作的路由融合框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多LLM协作 Token级路由 模型融合 专家模型 Logit加法
📋 核心要点
- 通用LLM规模庞大,训练和部署成本高昂;领域专家模型虽然高效,但泛化能力不足。
- FusionRoute通过轻量级路由器,在token级别选择最佳专家,并生成补充logit来优化专家输出。
- 实验表明,FusionRoute在数学推理、代码生成和指令跟随等任务上,超越了多种现有方法。
📝 摘要(中文)
大型语言模型(LLM)在各个领域都表现出优势。然而,使用单个通用模型在这些领域都取得优异的性能通常需要扩展到非常大的规模,这使得训练和部署成本过高。另一方面,虽然较小的领域专用模型效率更高,但它们难以泛化到训练分布之外。为了解决这个难题,我们提出了FusionRoute,这是一个鲁棒且有效的token级多LLM协作框架,其中轻量级路由器同时(i)选择每个解码步骤中最合适的专家,以及(ii)贡献一个补充logit,通过logit加法来细化或纠正所选专家的下一个token分布。与仅依赖于固定专家输出的现有token级协作方法不同,我们提供了一个理论分析,表明纯粹的专家路由从根本上受到限制:除非满足强大的全局覆盖假设,否则它通常无法实现最优解码策略。通过用可训练的补充生成器增强专家选择,FusionRoute扩展了有效的策略类,并能够在温和的条件下恢复最优价值函数。在Llama-3和Gemma-2系列以及涵盖数学推理、代码生成和指令遵循的各种基准测试中,FusionRoute优于序列级和token级协作、模型合并和直接微调,同时在各自的任务上与领域专家保持竞争力。
🔬 方法详解
问题定义:现有的大型通用语言模型虽然能力强大,但训练和部署成本高昂。而领域专家模型虽然效率高,但泛化能力有限,难以应对超出其训练范围的任务。现有的token级协作方法通常依赖于固定的专家输出,缺乏灵活性,可能无法达到最优的解码策略。
核心思路:FusionRoute的核心思路是在token级别动态地选择最合适的专家模型,并利用一个轻量级的路由器生成补充logit,对所选专家的输出进行修正和优化。这种方法结合了专家模型的专业知识和路由器的灵活性,旨在实现更高效和更准确的语言生成。通过可训练的补充生成器,扩展了有效的策略类,能够在温和的条件下恢复最优价值函数。
技术框架:FusionRoute框架包含多个领域专家模型和一个轻量级的路由器。在每个解码步骤中,路由器首先根据当前上下文选择最合适的专家模型。然后,路由器生成一个补充logit,该logit与所选专家的输出logit进行加权融合,得到最终的token分布。整个过程是端到端可训练的,路由器可以学习如何有效地选择专家并生成补充logit。
关键创新:FusionRoute的关键创新在于其token级别的动态专家选择和logit融合机制。与传统的静态模型集成方法不同,FusionRoute能够根据不同的上下文动态地调整专家模型的权重,从而更好地利用各个模型的优势。此外,补充logit的引入使得模型能够对专家的输出进行修正,进一步提高了生成质量。理论分析表明,纯粹的专家路由存在局限性,而FusionRoute通过补充生成器扩展了策略空间,能够逼近最优解码策略。
关键设计:路由器通常是一个小型神经网络,例如多层感知机或Transformer。路由器的输入是当前上下文的表示,输出是专家选择的概率分布以及补充logit。损失函数通常包括交叉熵损失和正则化项,用于训练路由器选择合适的专家并生成有效的补充logit。补充logit通过logit加法与专家模型的输出融合,融合权重可以是固定的或可学习的。
📊 实验亮点
实验结果表明,FusionRoute在Llama-3和Gemma-2系列模型上,以及数学推理、代码生成和指令跟随等多个基准测试中,均优于序列级和token级协作、模型合并和直接微调等方法。在特定任务上,FusionRoute的性能甚至可以与领域专家模型相媲美,同时保持了更好的泛化能力。例如,在数学推理任务上,FusionRoute相比基线模型提升了显著的性能。
🎯 应用场景
FusionRoute具有广泛的应用前景,可以应用于各种需要多领域知识的自然语言处理任务,例如智能客服、机器翻译、代码生成等。通过集成不同领域的专家模型,FusionRoute可以提高模型的准确性和泛化能力,降低模型的训练和部署成本。该方法还可以用于构建个性化的语言模型,根据用户的特定需求动态地选择和组合不同的专家模型。
📄 摘要(原文)
Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.