MUR: Momentum Uncertainty guided Reasoning for Large Language Models

作者: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu

分类: cs.CL

发布日期: 2025-07-20

备注: 25 pages, 8 figures

💡 一句话要点

提出动量不确定性引导推理以提升大语言模型的推理效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理效率 动量不确定性 测试时扩展 自然语言处理 智能问答 计算资源优化

📋 核心要点

现有方法在推理效率上存在不足，尤其是在测试时扩展过程中容易导致冗余计算和资源浪费。
本文提出动量不确定性引导推理（MUR），通过动态跟踪不确定性来优化推理预算分配，避免过度思考。
实验结果显示，MUR在多个基准测试中显著减少计算量，同时提升了模型的推理准确性。

📝 摘要（中文）

大型语言模型（LLMs）在推理密集型任务中表现出色，但优化其推理效率仍然是一个开放性挑战。虽然测试时扩展（TTS）提高了推理质量，但常常导致过度思考，浪费计算资源。本文提出动量不确定性引导推理（MUR），通过动态分配思考预算来有效引导LLM的测试时扩展。MUR跟踪并聚合逐步不确定性，支持灵活的推理时间控制，并通过简单的超参数调节推理预算。实验结果表明，MUR在四个基准测试上平均减少超过50%的计算量，同时提高了0.62-3.37%的准确率。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在推理过程中的效率问题，尤其是在测试时扩展（TTS）中常见的冗余计算和过度思考现象。现有方法往往未能有效分配推理预算，导致计算资源浪费。

核心思路：论文提出的MUR方法灵感来源于物理学中的动量概念，通过动态跟踪和聚合推理过程中的不确定性，来有效分配思考预算，确保模型在关键推理步骤上集中资源。

技术框架：MUR的整体架构包括不确定性跟踪模块和预算分配机制。通过gamma-control机制，MUR能够通过单一超参数调节推理预算，支持灵活的推理控制。

关键创新：MUR的核心创新在于其动态不确定性引导的推理预算分配方法，与传统的静态推理方法相比，MUR能够更有效地减少冗余计算并提高推理质量。

关键设计：MUR设计了不确定性跟踪算法，能够实时监测推理过程中的不确定性变化，并通过gamma-control机制调节推理预算，确保在关键步骤上分配更多资源。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MUR在四个基准测试（MATH-500、AIME24、AIME25和GPQA-diamond）中，相较于多种测试时扩展方法，平均减少计算量超过50%，同时提高了模型的准确性，提升幅度在0.62%至3.37%之间。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和对话生成等。通过提升大型语言模型的推理效率，MUR可以在实际应用中减少计算成本，提高响应速度，进而推动智能系统的广泛应用和发展。

📄 摘要（原文）

Large Language Models (LLMs) have achieved impressive performance on reasoning-intensive tasks, yet optimizing their reasoning efficiency remains an open challenge. While Test-Time Scaling (TTS) improves reasoning quality, it often leads to overthinking, wasting tokens on redundant computations. This work investigates how to efficiently and adaptively guide LLM test-time scaling without additional training. Inspired by the concept of momentum in physics, we propose Momentum Uncertainty-guided Reasoning (MUR), which dynamically allocates thinking budgets to critical reasoning steps by tracking and aggregating stepwise uncertainty over time. To support flexible inference-time control, we introduce gamma-control, a simple mechanism that tunes the reasoning budget via a single hyperparameter. We provide in-depth theoretical proof to support the superiority of MUR in terms of stability and biases. MUR is comprehensively evaluated against various TTS methods across four challenging benchmarks (MATH-500, AIME24, AIME25, and GPQA-diamond) using different sizes of recent Qwen3 models (1.7B, 4B, and 8B). Results demonstrate that MUR reduces computation by over 50% on average while improving accuracy by 0.62-3.37%.

MUR: Momentum Uncertainty guided Reasoning for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理