Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

📄 arXiv: 2512.07461v2 📥 PDF

作者: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng

分类: cs.CL

发布日期: 2025-12-08 (更新: 2025-12-19)


💡 一句话要点

提出原生并行推理器NPR,通过自蒸馏强化学习赋能LLM并行推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 并行推理 强化学习 自蒸馏 大型语言模型 策略优化

📋 核心要点

  1. 现有LLM推理主要依赖串行方式,效率较低,难以充分利用并行计算资源。
  2. NPR通过自蒸馏强化学习,使LLM学习并行分解推理任务,实现原生并行认知。
  3. 实验表明,NPR在多个推理基准上显著提升性能和推理速度,且实现100%并行执行。

📝 摘要(中文)

本文介绍了一种名为原生并行推理器(NPR)的无教师框架,它使大型语言模型(LLM)能够自我进化出真正的并行推理能力。NPR通过三个关键创新将模型从顺序模拟转变为原生并行认知:1)一种自蒸馏渐进式训练范式,无需外部监督即可从“冷启动”格式发现过渡到严格的拓扑约束;2)一种新颖的并行感知策略优化(PAPO)算法,该算法直接在执行图中优化分支策略,使模型能够通过试错学习自适应分解;3)一个强大的NPR引擎,它重构了SGLang的内存管理和流程控制,以实现稳定的大规模并行RL训练。在八个推理基准测试中,在Qwen3-4B上训练的NPR实现了高达24.5%的性能提升和高达4.6倍的推理加速。与通常退回到自回归解码的先前基线不同,NPR展示了100%真正的并行执行,为自我进化、高效和可扩展的代理推理建立了一个新标准。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在进行复杂推理时,通常采用自回归的方式,即一步一步地进行推理,这限制了推理速度,并且无法充分利用现代硬件的并行计算能力。现有的并行推理方法往往依赖于人工设计的规则或外部监督信号,缺乏灵活性和泛化能力。因此,如何让LLM自主学习并行推理策略,提高推理效率,是一个重要的研究问题。

核心思路:NPR的核心思路是通过自蒸馏强化学习,让LLM从串行推理的“学生”模型中学习,逐步进化为具有并行推理能力的“教师”模型。具体来说,NPR首先通过自蒸馏的方式,让模型学习并行推理的格式和拓扑结构,然后通过并行感知策略优化(PAPO)算法,让模型在执行图中直接优化分支策略,从而学习自适应的分解推理任务。

技术框架:NPR的整体框架包括三个主要组成部分:1)自蒸馏渐进式训练范式:从“冷启动”格式发现到严格的拓扑约束,逐步引导模型学习并行推理的结构。2)并行感知策略优化(PAPO):在执行图中直接优化分支策略,使模型能够通过试错学习自适应分解。3)NPR引擎:重构SGLang的内存管理和流程控制,以支持大规模并行RL训练。

关键创新:NPR的关键创新在于其完全自主的学习方式和并行感知策略优化算法。与以往依赖人工规则或外部监督的并行推理方法不同,NPR通过自蒸馏强化学习,让模型自主学习并行推理策略,无需人工干预。PAPO算法则允许模型在执行图中直接优化分支策略,从而更好地适应不同的推理任务。

关键设计:在自蒸馏阶段,NPR采用了一种渐进式的训练策略,逐步增加拓扑约束的强度,引导模型学习并行推理的结构。在PAPO算法中,NPR设计了一种并行感知的奖励函数,鼓励模型进行有效的并行分解。此外,NPR还对SGLang的内存管理和流程控制进行了优化,以支持大规模并行RL训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NPR在八个推理基准测试中取得了显著的性能提升,最高可达24.5%,推理速度提升高达4.6倍。与传统的自回归解码方法相比,NPR实现了100%的并行执行,充分利用了计算资源。这些结果表明,NPR是一种有效且高效的并行推理方法。

🎯 应用场景

NPR具有广泛的应用前景,可以应用于各种需要复杂推理的场景,例如问答系统、知识图谱推理、代码生成等。通过提高推理效率,NPR可以降低计算成本,并提升用户体验。未来,NPR有望成为构建高效、智能的AI系统的关键技术。

📄 摘要(原文)

We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.