Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

📄 arXiv: 2505.14681v2 📥 PDF

作者: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu

分类: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG

发布日期: 2025-05-20 (更新: 2025-05-27)

备注: Work in progress


💡 一句话要点

RICE:无需额外训练,仅需两位专家即可引导MoE推理模型进行更有效的思考

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 认知效率 推理引导 归一化逐点互信息 元推理 推理准确性 无需训练

📋 核心要点

  1. 现有推理模型存在认知效率低下问题,如过度思考和思考不足,影响推理性能。
  2. RICE方法通过识别和强化负责元推理操作的“认知专家”,引导模型更有效地思考。
  3. 实验表明,RICE在多个推理基准上显著提升了MoE模型的准确性、效率和泛化能力。

📝 摘要(中文)

本文提出了一种新颖的推理时引导方法,名为强化认知专家(RICE),旨在提高大型推理模型(LRM)中混合专家(MoE)架构的推理性能,无需额外的训练或复杂的启发式方法。RICE利用归一化逐点互信息(nPMI)系统地识别专门的专家,称之为“认知专家”,这些专家负责编排元级别的推理操作,其特征是诸如“”之类的token。在基于MoE的领先LRM(DeepSeek-R1和Qwen3-235B)上进行的严格定量和科学推理基准评估表明,在推理准确性、认知效率和跨领域泛化方面都有显著且一致的改进。重要的是,我们这种轻量级方法明显优于流行的推理引导技术,如提示设计和解码约束,同时保留了模型的一般指令遵循能力。这些结果表明,强化认知专家是增强高级推理模型中认知效率的一个有前途、实用且可解释的方向。

🔬 方法详解

问题定义:现有的大型推理模型(LRM)中的混合专家(MoE)架构虽然在推理能力上取得了显著进展,但仍然存在认知效率问题,例如过度思考(overthinking)和思考不足(underthinking)。这些问题导致模型在推理过程中产生不必要的计算开销,或者无法充分利用已有的知识进行有效推理,最终影响推理的准确性和效率。现有的推理引导技术,如提示工程和解码约束,虽然可以在一定程度上改善推理性能,但往往需要大量的人工设计和调整,且泛化能力有限。

核心思路:RICE的核心思路是通过识别和强化模型中负责元级别推理操作的“认知专家”,从而引导模型进行更有效的思考。这里的“认知专家”指的是那些专门处理与思考过程相关的token(例如“”)的专家。通过强化这些专家的作用,RICE可以促使模型更加关注推理过程本身,从而避免过度思考和思考不足的问题。这种方法无需额外的训练,可以在推理时直接应用,具有很高的实用性。

技术框架:RICE方法主要包含以下几个步骤:1) 使用归一化逐点互信息(nPMI)来识别模型中的“认知专家”。nPMI用于衡量专家处理与思考过程相关的token(例如“”)的能力。2) 在推理过程中,根据输入样本动态地选择和强化这些认知专家。具体来说,可以通过调整专家的激活权重来实现。3) 使用调整后的专家组合进行推理,从而提高推理的准确性和效率。整个过程无需额外的训练,可以在推理时直接应用。

关键创新:RICE的关键创新在于提出了一种无需额外训练的推理时引导方法,通过识别和强化“认知专家”来提高模型的认知效率。与现有的推理引导技术相比,RICE具有以下优势:1) 无需人工设计和调整,可以自动地识别和强化认知专家。2) 具有很强的泛化能力,可以在不同的推理任务和模型上应用。3) 具有很高的实用性,可以在推理时直接应用,无需额外的训练。

关键设计:RICE的关键设计在于使用归一化逐点互信息(nPMI)来识别认知专家。nPMI的计算公式如下:nPMI(x, y) = log(p(x, y) / (p(x) * p(y))) / -log(p(x, y)),其中x和y分别代表专家和思考相关的token。通过计算每个专家与思考相关token的nPMI值,可以量化专家处理思考过程的能力。在推理过程中,可以通过调整专家的激活权重来强化认知专家的作用。具体的权重调整策略可以根据具体的任务和模型进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,RICE在DeepSeek-R1和Qwen3-235B等先进MoE模型上,在定量和科学推理基准测试中均取得了显著提升。例如,在某些基准测试中,RICE能够将推理准确率提高5%以上,同时保持或提升认知效率。RICE的性能优于传统的提示工程和解码约束等推理引导技术。

🎯 应用场景

RICE方法可广泛应用于需要复杂推理能力的领域,如科学研究、数学问题求解、代码生成和智能问答。通过提高推理效率和准确性,RICE能够提升相关应用的性能和用户体验,并降低计算成本。未来,RICE有望成为提升通用人工智能系统推理能力的重要组成部分。

📄 摘要(原文)

Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.