Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

作者: Jinghui Lu, Haiyang Yu, Siliang Xu, Shiwei Ran, Guozhi Tang, Siqi Wang, Bin Shan, Teng Fu, Hao Feng, Jingqun Tang, Han Wang, Can Huang

分类: cs.CL, cs.AI, cs.MM

发布日期: 2025-05-21

💡 一句话要点

提出基于置信度的自适应推理框架CAR，提升LLM/MLLM推理效率与准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自适应推理 置信度评估 困惑度 大型语言模型 多模态学习 思维链 效率优化

📋 核心要点

现有LLM/MLLM推理过度依赖CoT，导致简单任务性能下降和效率降低。
CAR框架基于模型困惑度，自适应选择简短答案或长篇推理，提升效率。
实验证明CAR在多模态和文本推理任务上，优于传统方法，平衡了准确性和效率。

📝 摘要（中文）

大型语言模型（LLM）和多模态大型语言模型（MLLM）在推理能力方面取得了显著进展。然而，过度依赖思维链（CoT）推理会损害模型性能，并导致不必要的冗长输出，降低效率。本文揭示了长时间的推理并不总能提高准确性，甚至会降低简单任务的性能。为了解决这个问题，我们提出了一种基于置信度的自适应推理（CAR）框架，该框架根据模型困惑度动态地在简短答案和长篇推理之间切换。CAR首先生成一个简短答案并评估其困惑度，仅当模型表现出低置信度（即高困惑度）时才触发推理。在各种多模态VQA/KIE基准和文本推理数据集上的实验表明，CAR优于简短答案和长篇推理方法，在准确性和效率之间取得了最佳平衡。

🔬 方法详解

问题定义：现有的大型语言模型和多模态大型语言模型在推理任务中，通常采用思维链（Chain-of-Thought, CoT）的方式进行推理。然而，研究表明，对于一些简单的任务，过长的推理链反而会降低模型的性能，同时也会增加计算成本和延迟。因此，如何根据任务的难易程度，自适应地选择合适的推理方式，是一个亟待解决的问题。

核心思路：本文的核心思路是利用模型自身的困惑度（Perplexity）来衡量其对当前答案的置信程度。如果模型对给出的简短答案具有较高的置信度（即困惑度较低），则直接输出该答案；反之，如果模型对简短答案的置信度较低（即困惑度较高），则触发长篇推理，以提高答案的准确性。这种自适应的方式可以在保证准确性的前提下，尽可能地减少不必要的计算开销。

技术框架：CAR框架主要包含两个阶段：1) 简短答案生成与困惑度评估：首先，模型直接生成一个简短的答案。然后，计算该答案的困惑度，作为模型置信度的衡量指标。2) 自适应推理决策：根据困惑度与预设阈值的比较结果，决定是否进行长篇推理。如果困惑度低于阈值，则输出简短答案；否则，触发长篇推理，生成详细的推理过程和最终答案。

关键创新：CAR框架的关键创新在于其自适应的推理决策机制。与传统的固定推理方式（要么总是简短回答，要么总是长篇推理）不同，CAR能够根据模型自身的置信度动态地选择合适的推理方式。这种自适应性使得模型能够在保证准确性的前提下，最大限度地提高效率。

关键设计：CAR框架的关键设计包括：1) 困惑度的计算方式：通常使用语言模型的交叉熵损失来计算困惑度。2) 困惑度阈值的设定：阈值的设定需要根据具体的任务和数据集进行调整，以达到最佳的性能平衡。可以通过实验或者交叉验证的方式来确定合适的阈值。3) 长篇推理的具体实现方式：可以使用标准的思维链（CoT）方法，也可以采用其他更复杂的推理策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CAR在多个多模态VQA/KIE基准测试和文本推理数据集上均取得了显著的性能提升。例如，在某些VQA任务上，CAR在保持甚至提高准确率的同时，显著减少了推理所需的计算资源。与传统的CoT方法相比，CAR在效率和准确性之间取得了更好的平衡。

🎯 应用场景

CAR框架可广泛应用于需要高效且准确推理的场景，如智能问答系统、文档理解、知识图谱推理等。通过自适应地选择推理方式，CAR能够显著提升系统的响应速度和资源利用率，同时保证较高的准确性。未来，CAR有望成为LLM/MLLM推理的标准组件，推动相关技术的进一步发展。

📄 摘要（原文）

Recent advancements in reasoning have significantly enhanced the capabilities of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) across diverse tasks. However, excessive reliance on chain-of-thought (CoT) reasoning can impair model performance and brings unnecessarily lengthened outputs, reducing efficiency. Our work reveals that prolonged reasoning does not universally improve accuracy and even degrade performance on simpler tasks. To address this, we propose Certainty-based Adaptive Reasoning (CAR), a novel framework that dynamically switches between short answers and long-form reasoning based on the model perplexity. CAR first generates a short answer and evaluates its perplexity, triggering reasoning only when the model exhibits low confidence (i.e., high perplexity). Experiments across diverse multimodal VQA/KIE benchmarks and text reasoning datasets show that CAR outperforms both short-answer and long-form reasoning approaches, striking an optimal balance between accuracy and efficiency.

Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理