TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization

📄 arXiv: 2606.05859v1 📥 PDF

作者: Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li

分类: cs.CL

发布日期: 2026-06-04

备注: 18 pages, 12 figures. Code available at https://github.com/NKU-LITI/TARPO-master

🔗 代码/项目: GITHUB


💡 一句话要点

提出TARPO以解决强化学习中的策略探索问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 潜在推理 离散生成 策略优化 动作路由

📋 核心要点

  1. 现有方法在强化学习中面临策略探索的挑战,尤其是连续表示的确定性限制了多样化的策略生成。
  2. TARPO通过引入动作路由器,在离散令牌生成与连续潜在推理之间自适应切换,从而增强了策略的随机性和灵活性。
  3. 实验结果表明,TARPO在多个基准测试中表现优异,超越了现有的显性和潜在推理强化学习基线,展现了其有效性。

📝 摘要(中文)

潜在推理作为大型语言模型中的一种新兴方法,通过对连续表示的操作实现更具表现力的推理。然而,连续表示的确定性特性限制了强化学习中的策略探索。为此,本文提出了TARPO(基于动作路由的令牌级潜在-显性推理),该框架在每一步自适应地在离散令牌生成和连续潜在推理之间切换。TARPO引入了一种轻量级的动作头路由器,观察当前隐藏状态并从二元模式选择空间中采样路由决策,保持了从词汇中离散令牌采样的随机性。通过在Qwen2.5和Llama-3.1-8B等多个基准上的广泛实验,TARPO在各种基准测试中始终优于现有的显性和潜在推理强化学习基线。

🔬 方法详解

问题定义:本文旨在解决强化学习中由于连续表示的确定性特性导致的策略探索不足的问题。现有方法在生成多样化策略时面临挑战,限制了模型的表现力。

核心思路:TARPO的核心思路是通过引入动作路由器,在每一步自适应地在离散令牌生成和连续潜在推理之间切换。这种设计旨在保持离散采样的随机性,同时利用潜在推理的表达能力。

技术框架:TARPO的整体架构包括一个大型语言模型(LLM)作为主干和一个轻量级的动作路由器。路由器根据当前的隐藏状态做出决策,选择生成离散令牌或进行潜在推理。两者通过共享的相对优势信号进行端到端优化。

关键创新:TARPO的主要创新在于其动作路由器的设计,使得模型能够在离散和连续推理之间灵活切换。这种灵活性与现有方法的固定推理方式形成了显著对比,提升了策略的多样性和适应性。

关键设计:在设计中,TARPO采用了轻量级的路由器结构,使用二元模式选择空间进行决策。损失函数通过共享的相对优势信号进行优化,确保了模型在训练过程中的稳定性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在广泛的实验中,TARPO在Qwen2.5和Llama-3.1-8B等多个基准上表现优异, consistently outperforming existing explicit and latent reasoning RL baselines,展现出显著的性能提升,具体提升幅度未知。

🎯 应用场景

TARPO的研究成果在多个领域具有潜在应用价值,包括自然语言处理、智能对话系统和自动化决策支持等。通过提升模型的推理能力和策略生成的灵活性,TARPO能够为复杂任务提供更有效的解决方案,推动相关技术的发展与应用。

📄 摘要(原文)

Latent reasoning has emerged as a promising alternative to discrete Chain-of-Thought (CoT) in large language models (LLMs), enabling more expressive reasoning by operating over continuous representations. However, the inherently deterministic nature of continuous representations limits policy exploration in reinforcement learning (RL). To address this, we propose TARPO (Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization), a pure RL framework that adaptively switches between discrete token generation and continuous latent reasoning at each step. TARPO introduces a lightweight action head router that observes the current hidden state and samples a routing decision from a binary mode-selection space, preserving the stochasticity of discrete token sampling from the vocabulary. The LLM backbone and router are jointly optimized end-to-end with a shared group-relative advantage signal. Extensive experiments across Qwen2.5 (from 1.5B to 7B) and Llama-3.1-8B backbones demonstrate that TARPO consistently outperforms existing explicit and latent reasoning RL baselines across diverse benchmarks. Further analysis shows that TARPO learns adaptive token-wise switching behaviors while maintaining stable training dynamics. Our code is available at https://github.com/NKU-LITI/TARPO-master.