Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

作者: Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng

分类: cs.CL

发布日期: 2025-12-08 (更新: 2025-12-19)

💡 一句话要点

提出原生并行推理器NPR，通过自蒸馏强化学习赋能LLM并行推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 并行推理 强化学习 自蒸馏 大型语言模型 策略优化

📋 核心要点

现有LLM推理主要依赖串行方式，效率较低，难以充分利用并行计算资源。
NPR通过自蒸馏强化学习，使LLM学习并行分解推理任务，实现原生并行认知。
实验表明，NPR在多个推理基准上显著提升性能和推理速度，且实现100%并行执行。

📝 摘要（中文）

本文介绍了一种名为原生并行推理器（NPR）的无教师框架，它使大型语言模型（LLM）能够自我进化出真正的并行推理能力。NPR通过三个关键创新将模型从顺序模拟转变为原生并行认知：1）一种自蒸馏渐进式训练范式，无需外部监督即可从“冷启动”格式发现过渡到严格的拓扑约束；2）一种新颖的并行感知策略优化（PAPO）算法，该算法直接在执行图中优化分支策略，使模型能够通过试错学习自适应分解；3）一个强大的NPR引擎，它重构了SGLang的内存管理和流程控制，以实现稳定的大规模并行RL训练。在八个推理基准测试中，在Qwen3-4B上训练的NPR实现了高达24.5%的性能提升和高达4.6倍的推理加速。与通常退回到自回归解码的先前基线不同，NPR展示了100%真正的并行执行，为自我进化、高效和可扩展的代理推理建立了一个新标准。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在进行复杂推理时，通常采用自回归的方式，即一步一步地进行推理，这限制了推理速度，并且无法充分利用现代硬件的并行计算能力。现有的并行推理方法往往依赖于人工设计的规则或外部监督信号，缺乏灵活性和泛化能力。因此，如何让LLM自主学习并行推理策略，提高推理效率，是一个重要的研究问题。

核心思路：NPR的核心思路是通过自蒸馏强化学习，让LLM从串行推理的“学生”模型中学习，逐步进化为具有并行推理能力的“教师”模型。具体来说，NPR首先通过自蒸馏的方式，让模型学习并行推理的格式和拓扑结构，然后通过并行感知策略优化（PAPO）算法，让模型在执行图中直接优化分支策略，从而学习自适应的分解推理任务。

技术框架：NPR的整体框架包括三个主要组成部分：1）自蒸馏渐进式训练范式：从“冷启动”格式发现到严格的拓扑约束，逐步引导模型学习并行推理的结构。2）并行感知策略优化（PAPO）：在执行图中直接优化分支策略，使模型能够通过试错学习自适应分解。3）NPR引擎：重构SGLang的内存管理和流程控制，以支持大规模并行RL训练。

关键创新：NPR的关键创新在于其完全自主的学习方式和并行感知策略优化算法。与以往依赖人工规则或外部监督的并行推理方法不同，NPR通过自蒸馏强化学习，让模型自主学习并行推理策略，无需人工干预。PAPO算法则允许模型在执行图中直接优化分支策略，从而更好地适应不同的推理任务。

关键设计：在自蒸馏阶段，NPR采用了一种渐进式的训练策略，逐步增加拓扑约束的强度，引导模型学习并行推理的结构。在PAPO算法中，NPR设计了一种并行感知的奖励函数，鼓励模型进行有效的并行分解。此外，NPR还对SGLang的内存管理和流程控制进行了优化，以支持大规模并行RL训练。

🖼️ 关键图片

📊 实验亮点

NPR在八个推理基准测试中取得了显著的性能提升，最高可达24.5%，推理速度提升高达4.6倍。与传统的自回归解码方法相比，NPR实现了100%的并行执行，充分利用了计算资源。这些结果表明，NPR是一种有效且高效的并行推理方法。

🎯 应用场景

NPR具有广泛的应用前景，可以应用于各种需要复杂推理的场景，例如问答系统、知识图谱推理、代码生成等。通过提高推理效率，NPR可以降低计算成本，并提升用户体验。未来，NPR有望成为构建高效、智能的AI系统的关键技术。

📄 摘要（原文）

We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理