Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
作者: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
分类: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG
发布日期: 2025-05-20 (更新: 2025-05-27)
备注: Work in progress
💡 一句话要点
RICE:无需额外训练,仅需两位专家即可引导MoE推理模型进行更有效的思考
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 认知效率 推理引导 归一化逐点互信息 元推理 推理准确性 无需训练
📋 核心要点
- 现有推理模型存在认知效率低下问题,如过度思考和思考不足,影响推理性能。
- RICE方法通过识别和强化负责元推理操作的“认知专家”,引导模型更有效地思考。
- 实验表明,RICE在多个推理基准上显著提升了MoE模型的准确性、效率和泛化能力。
📝 摘要(中文)
本文提出了一种新颖的推理时引导方法,名为强化认知专家(RICE),旨在提高大型推理模型(LRM)中混合专家(MoE)架构的推理性能,无需额外的训练或复杂的启发式方法。RICE利用归一化逐点互信息(nPMI)系统地识别专门的专家,称之为“认知专家”,这些专家负责编排元级别的推理操作,其特征是诸如“
🔬 方法详解
问题定义:现有的大型推理模型(LRM)中的混合专家(MoE)架构虽然在推理能力上取得了显著进展,但仍然存在认知效率问题,例如过度思考(overthinking)和思考不足(underthinking)。这些问题导致模型在推理过程中产生不必要的计算开销,或者无法充分利用已有的知识进行有效推理,最终影响推理的准确性和效率。现有的推理引导技术,如提示工程和解码约束,虽然可以在一定程度上改善推理性能,但往往需要大量的人工设计和调整,且泛化能力有限。
核心思路:RICE的核心思路是通过识别和强化模型中负责元级别推理操作的“认知专家”,从而引导模型进行更有效的思考。这里的“认知专家”指的是那些专门处理与思考过程相关的token(例如“
技术框架:RICE方法主要包含以下几个步骤:1) 使用归一化逐点互信息(nPMI)来识别模型中的“认知专家”。nPMI用于衡量专家处理与思考过程相关的token(例如“
关键创新:RICE的关键创新在于提出了一种无需额外训练的推理时引导方法,通过识别和强化“认知专家”来提高模型的认知效率。与现有的推理引导技术相比,RICE具有以下优势:1) 无需人工设计和调整,可以自动地识别和强化认知专家。2) 具有很强的泛化能力,可以在不同的推理任务和模型上应用。3) 具有很高的实用性,可以在推理时直接应用,无需额外的训练。
关键设计:RICE的关键设计在于使用归一化逐点互信息(nPMI)来识别认知专家。nPMI的计算公式如下:nPMI(x, y) = log(p(x, y) / (p(x) * p(y))) / -log(p(x, y)),其中x和y分别代表专家和思考相关的token。通过计算每个专家与思考相关token的nPMI值,可以量化专家处理思考过程的能力。在推理过程中,可以通过调整专家的激活权重来强化认知专家的作用。具体的权重调整策略可以根据具体的任务和模型进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RICE在DeepSeek-R1和Qwen3-235B等先进MoE模型上,在定量和科学推理基准测试中均取得了显著提升。例如,在某些基准测试中,RICE能够将推理准确率提高5%以上,同时保持或提升认知效率。RICE的性能优于传统的提示工程和解码约束等推理引导技术。
🎯 应用场景
RICE方法可广泛应用于需要复杂推理能力的领域,如科学研究、数学问题求解、代码生成和智能问答。通过提高推理效率和准确性,RICE能够提升相关应用的性能和用户体验,并降低计算成本。未来,RICE有望成为提升通用人工智能系统推理能力的重要组成部分。
📄 摘要(原文)
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''
''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.