TARo: Token-level Adaptive Routing for LLM Test-time Alignment

作者: Arushi Rai, Qiang Zhang, Hanqing Zeng, Yunkai Zhang, Dipesh Tamboli, Xiangjun Fan, Zhuokai Zhao

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-19

💡 一句话要点

提出TARo：一种Token级自适应路由方法，用于LLM测试时对齐，提升推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 测试时对齐 自适应路由 推理能力 奖励模型

📋 核心要点

现有LLM推理能力强，但需昂贵的后训练。测试时对齐方法虽轻量，但主要针对偏好对齐，推理能力提升有限。
TARo的核心在于训练奖励模型捕捉逻辑一致性，并使用token级路由器自适应地控制奖励模型对基础模型的指导。
实验表明，TARo在推理、临床推理和指令遵循方面均有显著提升，且能推广到不同大小的模型，无需重新训练。

📝 摘要（中文）

大型语言模型（LLM）展现出强大的推理能力，但通常需要昂贵的后训练才能达到高性能。最近的测试时对齐方法提供了一种轻量级的替代方案，但主要针对偏好对齐而非推理。为了弥合这一差距，我们提出了Token级自适应路由（TARo），它完全在推理时引导冻结的LLM进行结构化推理。具体来说，我们首先在逐步数学轨迹上训练奖励模型，以捕获细粒度的逻辑一致性信号，然后引入一个可学习的token级路由器，该路由器自动控制奖励模型对基础模型的指导。大量实验表明，TARo显著提高了推理性能，比基础模型提高了高达+22.4%，比现有的token级测试时对齐方法提高了+8.4%，同时还提高了分布外临床推理（MedXpertQA）和指令遵循（AlpacaEval）。此外，TARo还可以从小型主干网络推广到大型主干网络，而无需重新训练，从而将测试时对齐从偏好优化扩展到稳健的跨领域推理。

🔬 方法详解

问题定义：现有的大型语言模型虽然具备强大的推理能力，但是往往需要耗费大量的计算资源进行后训练才能达到理想的性能。而现有的测试时对齐方法虽然计算开销较小，但是主要集中在偏好对齐方面，对于提升模型的推理能力效果有限。因此，如何利用轻量级的测试时对齐方法来提升LLM的推理能力是一个亟待解决的问题。

核心思路：TARo的核心思路是利用奖励模型来指导LLM的推理过程，并引入token级别的自适应路由机制，使得奖励模型的指导能够根据不同的token进行动态调整。这样做的目的是为了让模型在推理过程中更加注重逻辑一致性，从而提升推理的准确性。通过token级别的路由，可以更精细地控制奖励模型的干预，避免过度干预导致模型性能下降。

技术框架：TARo的整体框架主要包含三个部分：基础LLM、奖励模型和token级路由器。首先，使用逐步数学轨迹训练奖励模型，使其能够评估推理过程中的逻辑一致性。然后，token级路由器根据当前token的状态，决定是否以及如何将奖励模型的输出融入到基础LLM的推理过程中。在推理时，基础LLM生成token，奖励模型评估该token的逻辑一致性，token级路由器根据评估结果调整基础LLM的输出，最终生成下一个token。

关键创新：TARo的关键创新在于引入了token级别的自适应路由机制。与传统的测试时对齐方法不同，TARo不是简单地将奖励模型的输出直接加到基础LLM的输出上，而是通过一个可学习的路由器来控制奖励模型的干预程度。这种token级别的自适应性使得模型能够更加灵活地应对不同的推理场景，从而提升推理的准确性和鲁棒性。

关键设计：TARo的关键设计包括奖励模型的训练方式和token级路由器的结构。奖励模型通过在逐步数学轨迹上进行训练，学习评估推理过程中的逻辑一致性。Token级路由器通常采用一个小型神经网络，输入包括当前token的embedding和奖励模型的输出，输出是一个权重，用于控制奖励模型的干预程度。损失函数的设计需要平衡推理的准确性和鲁棒性，避免过度依赖奖励模型导致模型泛化能力下降。

🖼️ 关键图片

📊 实验亮点

TARo在多个数据集上取得了显著的性能提升。在数学推理任务上，TARo比基础模型提高了高达+22.4%，比现有的token级测试时对齐方法提高了+8.4%。此外，TARo还在分布外临床推理（MedXpertQA）和指令遵循（AlpacaEval）方面取得了显著的提升，表明其具有很强的泛化能力。这些实验结果充分证明了TARo的有效性和优越性。

🎯 应用场景

TARo具有广泛的应用前景，可以应用于数学推理、临床诊断、代码生成等多个领域。通过在测试时对齐，可以显著提升LLM在这些领域的性能，而无需进行昂贵的后训练。此外，TARo的跨领域泛化能力使得其可以应用于新的领域，具有很高的实际价值。未来，可以进一步研究如何将TARo应用于更复杂的推理场景，并探索更有效的奖励模型训练方法。

📄 摘要（原文）

Large language models (LLMs) exhibit strong reasoning capabilities but typically require expensive post-training to reach high performance. Recent test-time alignment methods offer a lightweight alternative, but have been explored mainly for preference alignment rather than reasoning. To bridge this gap, we propose, Token-level Adaptive Routing (TARo), which steers frozen LLMs toward structured reasoning entirely at inference time. Specifically, we first train reward models on step-wise mathematical traces to capture fine-grained logical consistency signals, then introduce a learnable token-level router that automatically controls the guidance of the reward model to the base model. Extensive experiments show that TARo significantly improves reasoning performance by up to +22.4% over base model and +8.4% over existing token-level test-time alignment methods, while also boosting out-of-distribution clinical reasoning (MedXpertQA) and instruction following (AlpacaEval). Furthermore, TARo also generalizes from small to large backbones without retraining, extending test-time alignment from preference optimization to robust, cross-domain reasoning.

TARo: Token-level Adaptive Routing for LLM Test-time Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理