MUR: Momentum Uncertainty guided Reasoning for Large Language Models

📄 arXiv: 2507.14958v1 📥 PDF

作者: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu

分类: cs.CL

发布日期: 2025-07-20

备注: 25 pages, 8 figures


💡 一句话要点

提出动量不确定性引导推理以提升大语言模型的推理效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理效率 动量不确定性 测试时扩展 自然语言处理 智能问答 计算资源优化

📋 核心要点

  1. 现有方法在推理效率上存在不足,尤其是在测试时扩展过程中容易导致冗余计算和资源浪费。
  2. 本文提出动量不确定性引导推理(MUR),通过动态跟踪不确定性来优化推理预算分配,避免过度思考。
  3. 实验结果显示,MUR在多个基准测试中显著减少计算量,同时提升了模型的推理准确性。

📝 摘要(中文)

大型语言模型(LLMs)在推理密集型任务中表现出色,但优化其推理效率仍然是一个开放性挑战。虽然测试时扩展(TTS)提高了推理质量,但常常导致过度思考,浪费计算资源。本文提出动量不确定性引导推理(MUR),通过动态分配思考预算来有效引导LLM的测试时扩展。MUR跟踪并聚合逐步不确定性,支持灵活的推理时间控制,并通过简单的超参数调节推理预算。实验结果表明,MUR在四个基准测试上平均减少超过50%的计算量,同时提高了0.62-3.37%的准确率。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在推理过程中的效率问题,尤其是在测试时扩展(TTS)中常见的冗余计算和过度思考现象。现有方法往往未能有效分配推理预算,导致计算资源浪费。

核心思路:论文提出的MUR方法灵感来源于物理学中的动量概念,通过动态跟踪和聚合推理过程中的不确定性,来有效分配思考预算,确保模型在关键推理步骤上集中资源。

技术框架:MUR的整体架构包括不确定性跟踪模块和预算分配机制。通过gamma-control机制,MUR能够通过单一超参数调节推理预算,支持灵活的推理控制。

关键创新:MUR的核心创新在于其动态不确定性引导的推理预算分配方法,与传统的静态推理方法相比,MUR能够更有效地减少冗余计算并提高推理质量。

关键设计:MUR设计了不确定性跟踪算法,能够实时监测推理过程中的不确定性变化,并通过gamma-control机制调节推理预算,确保在关键步骤上分配更多资源。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MUR在四个基准测试(MATH-500、AIME24、AIME25和GPQA-diamond)中,相较于多种测试时扩展方法,平均减少计算量超过50%,同时提高了模型的准确性,提升幅度在0.62%至3.37%之间。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和对话生成等。通过提升大型语言模型的推理效率,MUR可以在实际应用中减少计算成本,提高响应速度,进而推动智能系统的广泛应用和发展。

📄 摘要(原文)

Large Language Models (LLMs) have achieved impressive performance on reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it often leads to overthinking, wasting tokens on redundant computations. This work investigates how to efficiently and adaptively guide LLM test-time scaling without additional training. Inspired by the concept of momentum in physics, we propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically allocates thinking budgets to critical reasoning steps by tracking and aggregating stepwise uncertainty over time. To support flexible inference-time control, we introduce gamma-control, a simple mechanism that tunes the reasoning budget via a single hyperparameter. We provide in-depth theoretical proof to support the superiority of MUR in terms of stability and biases. MUR is comprehensively evaluated against various TTS methods across four challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate that MUR reduces computation by over 50% on average while improving accuracy by 0.62-3.37%.