Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition

作者: Hanting Chen, Yasheng Wang, Kai Han, Dong Li, Lin Li, Zhenni Bi, Jinpeng Li, Haoyu Wang, Fei Mi, Mingjian Zhu, Bin Wang, Kaikai Song, Yifei Fu, Xu He, Yu Luo, Chong Zhu, Quan He, Xueyu Wu, Wei He, Hailin Hu, Yehui Tang, Dacheng Tao, Xinghao Chen, Yunhe Wang

分类: cs.CL

发布日期: 2025-05-28 (更新: 2025-05-29)

💡 一句话要点

盘古Embedded：一种具备元认知的高效双系统LLM推理器

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理器 嵌入式设备 双系统框架 强化学习 迭代蒸馏 元认知

📋 核心要点

现有推理优化LLM面临计算成本高昂和推理延迟长的挑战，限制了实际部署。
提出盘古Embedded，采用双系统框架，具备快慢思考能力，动态分配计算资源以平衡推理深度和延迟。
实验表明，7B参数的盘古Embedded在多个基准测试中优于同等规模的模型，实现了快速响应和先进的推理质量。

📝 摘要（中文）

本文提出了盘古Embedded，一种在昇腾NPU上开发的高效大语言模型（LLM）推理器，具有灵活的快慢思考能力。盘古Embedded旨在解决现有推理优化LLM中普遍存在的计算成本高和推理延迟挑战。我们提出了一个两阶段训练框架来构建它。在第一阶段，该模型通过迭代蒸馏过程进行微调，结合迭代间模型合并以有效地聚合互补知识。随后是在昇腾集群上进行强化学习，通过容忍延迟的调度器进行优化，该调度器将陈旧同步并行与优先级数据队列相结合。强化学习过程由多源自适应奖励系统（MARS）指导，该系统使用确定性指标和轻量级LLM评估器为数学、编码和通用问题解决任务生成动态的、特定于任务的奖励信号。第二阶段引入了一个双系统框架，赋予盘古Embedded“快速”模式用于常规查询，以及更深入的“慢速”模式用于复杂推理。该框架提供手动模式切换以供用户控制，以及自动的、复杂度感知的模式选择机制，该机制动态地分配计算资源以平衡延迟和推理深度。在AIME 2024、GPQA和LiveCodeBench等基准测试上的实验结果表明，具有7B参数的盘古Embedded优于类似大小的模型，如Qwen3-8B和GLM4-9B。它在单个统一的模型架构中提供快速响应和最先进的推理质量，突出了开发强大且可实际部署的LLM推理器的有希望的方向。

🔬 方法详解

问题定义：现有的大语言模型推理器，尤其是在嵌入式设备上部署时，面临着计算资源有限和推理延迟高的挑战。现有的推理优化模型往往计算成本过高，难以在资源受限的环境中实现快速响应。因此，如何在保证推理质量的同时，降低计算成本和推理延迟，是本文要解决的核心问题。

核心思路：本文的核心思路是引入一个双系统框架，模拟人类的快慢思考模式。该框架包含一个“快速”模式和一个“慢速”模式。“快速”模式用于处理常规查询，提供快速响应；“慢速”模式用于处理复杂推理任务，提供更深入的推理能力。通过动态地在两种模式之间切换，可以有效地平衡推理质量和延迟。

技术框架：盘古Embedded的整体框架包含两个主要阶段：训练阶段和推理阶段。训练阶段包括迭代蒸馏和强化学习两个步骤。迭代蒸馏用于提升模型的基础推理能力，强化学习用于优化模型的推理策略。推理阶段采用双系统框架，包含“快速”模式和“慢速”模式。用户可以手动切换模式，也可以通过自动的复杂度感知机制动态选择模式。

关键创新：本文的关键创新在于双系统框架和多源自适应奖励系统（MARS）。双系统框架允许模型根据任务的复杂度动态调整推理深度，从而在推理质量和延迟之间取得平衡。MARS系统利用确定性指标和轻量级LLM评估器生成动态的、特定于任务的奖励信号，从而更有效地指导强化学习过程。

关键设计：在训练阶段，采用了迭代间模型合并技术，以有效地聚合互补知识。在强化学习阶段，采用了容忍延迟的调度器，将陈旧同步并行与优先级数据队列相结合，以提高训练效率。在推理阶段，设计了复杂度感知的模式选择机制，该机制基于任务的特征动态选择“快速”或“慢速”模式。MARS系统使用确定性指标（如数学公式的正确性）和轻量级LLM评估器（如用于评估代码质量的LLM）来生成奖励信号。

🖼️ 关键图片

📊 实验亮点

盘古Embedded在AIME 2024、GPQA和LiveCodeBench等基准测试中表现出色，优于同等规模的模型，如Qwen3-8B和GLM4-9B。例如，在AIME 2024数学竞赛中，盘古Embedded取得了显著的性能提升。此外，盘古Embedded在单个统一的模型架构中实现了快速响应和最先进的推理质量，证明了其在实际应用中的潜力。

🎯 应用场景

盘古Embedded具有广泛的应用前景，包括智能助手、自动驾驶、机器人等领域。它可以用于处理各种复杂的推理任务，例如数学问题求解、代码生成、逻辑推理等。通过在嵌入式设备上部署盘古Embedded，可以实现更智能、更高效的本地化推理，从而提高设备的智能化水平和用户体验。

📄 摘要（原文）

This work presents Pangu Embedded, an efficient Large Language Model (LLM) reasoner developed on Ascend Neural Processing Units (NPUs), featuring flexible fast and slow thinking capabilities. Pangu Embedded addresses the significant computational costs and inference latency challenges prevalent in existing reasoning-optimized LLMs. We propose a two-stage training framework for its construction. In Stage 1, the model is finetuned via an iterative distillation process, incorporating inter-iteration model merging to effectively aggregate complementary knowledge. This is followed by reinforcement learning on Ascend clusters, optimized by a latency-tolerant scheduler that combines stale synchronous parallelism with prioritized data queues. The RL process is guided by a Multi-source Adaptive Reward System (MARS), which generates dynamic, task-specific reward signals using deterministic metrics and lightweight LLM evaluators for mathematics, coding, and general problem-solving tasks. Stage 2 introduces a dual-system framework, endowing Pangu Embedded with a "fast" mode for routine queries and a deeper "slow" mode for complex inference. This framework offers both manual mode switching for user control and an automatic, complexity-aware mode selection mechanism that dynamically allocates computational resources to balance latency and reasoning depth. Experimental results on benchmarks including AIME 2024, GPQA, and LiveCodeBench demonstrate that Pangu Embedded with 7B parameters, outperforms similar-size models like Qwen3-8B and GLM4-9B. It delivers rapid responses and state-of-the-art reasoning quality within a single, unified model architecture, highlighting a promising direction for developing powerful yet practically deployable LLM reasoners.

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理