When to Think Deeply: Inhibitory Deliberation for LLM Reasoning
作者: Zhixuan He, Yue Feng
分类: cs.CL
发布日期: 2026-06-04
💡 一句话要点
提出IDPR框架以优化LLM推理效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理优化 抑制控制器 深度推理 数学推理 响应条件 准确性提升
📋 核心要点
- 现有方法在每次推理时都调用慢速推理,导致计算资源浪费和效率低下。
- 论文提出IDPR框架,通过生成直观答案并使用抑制控制器来优化推理过程。
- 在数学推理测试集上,IDPR仅在8.20%的示例中调用慢速推理,准确率提升显著。
📝 摘要(中文)
推理大型语言模型(LLM)可以通过深思熟虑的推理提高问题解决能力,但对每个输入都进行慢速推理在计算上是昂贵且往往不必要的。我们提出了IDPR框架,该框架通过响应条件抑制推理来优化推理过程。IDPR首先生成简洁的直观答案,然后使用抑制控制器决定是否发布该特定响应或抑制以进行慢速推理。与仅基于输入的路由器不同,抑制控制器基于快速答案和快速侧证据进行条件判断。实验结果表明,IDPR在仅8.20%的示例中调用慢速推理,准确率从47.90%提高到48.92%。
🔬 方法详解
问题定义:本论文旨在解决在推理大型语言模型时,频繁调用慢速推理导致的计算资源浪费和效率低下的问题。现有方法在每个输入上都进行慢速推理,未能有效区分何时需要深度推理。
核心思路:论文的核心思路是提出IDPR框架,通过生成快速的直观答案并利用抑制控制器来判断是否需要进行慢速推理,从而提高推理效率。这样的设计使得模型能够在保持准确率的同时,减少不必要的计算。
技术框架:IDPR框架包括两个主要模块:首先生成一个直观的快速答案,然后通过抑制控制器评估该答案的可靠性,决定是否进行慢速推理。抑制控制器基于快速答案的信心、logit边际、可解析性和生成成本等证据进行判断。
关键创新:IDPR的最大创新在于响应条件抑制推理,通过结合快速答案与多种证据来优化推理决策。这与传统的仅基于输入的路由器方法有本质区别,后者未能考虑快速答案的上下文信息。
关键设计:抑制控制器的训练基于配对的快速和慢速结果,并在保留的验证集上选择抑制阈值。该设计确保了在准确性优先的慢调用预算下,能够有效识别需要慢速推理的情况。
🖼️ 关键图片
📊 实验亮点
实验结果显示,IDPR在仅8.20%的示例中调用慢速推理,准确率从47.90%提升至48.92%。相比之下,随机路由的准确率下降至46.76%,而最强的基于信心的基线仅达到48.22%。IDPR还实现了最高的纠正精度,表明其在识别需要慢速推理的快速答案方面表现优异。
🎯 应用场景
该研究的潜在应用领域包括教育、自动问答系统和智能助手等,能够在提高推理效率的同时,保持较高的准确性。未来,IDPR框架可能会被广泛应用于各种需要快速响应的智能系统中,提升用户体验和系统性能。
📄 摘要(原文)
Reasoning Large Language Models can improve problem-solving performance through deliberative inference, but invoking slow reasoning for every input is computationally expensive and often unnecessary. We propose IDPR, a framework for response-conditioned inhibitory deliberation. IDPR first generates a concise intuitive answer and then uses an inhibition controller to decide whether that specific response should be released or suppressed in favor of slow reasoning. Unlike input-only routers, the inhibition controller conditions on the fast answer and fast-side evidence, including confidence, logit margin, parseability, and generation cost. We train the controller from paired fast-slow outcomes and select the inhibition threshold on a held-out validation set under an accuracy-first slow-call budget. On a held-out 5,000-example mathematical reasoning test set, IDPR invokes slow reasoning on only 8.20% of examples and improves accuracy from 47.90% to 48.92%. Under the same slow-call budget, random routing decreases accuracy to 46.76%, while the strongest confidence-based baseline reaches 48.22%. IDPR also achieves the highest corrective precision, showing that response-conditioned inhibition better identifies fast answers that benefit from slow reasoning.