The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits

作者: Wenhua Nie, Junlin Liu, Jianan Wu, Zijie Meng, Yilong Fan, Zhang Zijian, Haoran Zheng, Jyh-Shing Roger Jang

分类: cs.LG

发布日期: 2026-05-08

备注: 40 pages, 6 figures

💡 一句话要点

揭示推理链中的“耦合税”现象：提出预算解耦策略以优化大模型推理性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 大模型推理 预算分配 性能优化 推理效率 数学推理

📋 核心要点

核心问题：在固定输出Token预算下，推理轨迹过长会挤占答案生成空间，导致“耦合税”效应，反而降低模型准确率。
方法要点：提出预算拆分生成策略，将推理过程与答案生成解耦，并推导了截断-浪费分解公式以预测性能交叉点。
实验效果：通过IRIS等方法，在MATH-500数据集上实现了从74.0%到83.6%的准确率提升，验证了预算分配优化的有效性。

📝 摘要（中文）

思维链（CoT）推理常被视为提升语言模型准确性的单调递增手段，但本文揭示了一种反向效应——“耦合税”：当推理过程与最终答案共享同一个输出Token预算时，过长的推理轨迹会挤占答案所需的空间。通过在Qwen3系列模型及DeepSeek-R1-Distill-Llama-8B上的实验，研究发现，在固定预算下，非思维模式在GSM8K和MATH-500等任务上往往表现更优。作者推导了截断-浪费分解公式，量化了推理长度与准确率间的权衡。为缓解该问题，本文提出了预算拆分生成策略（Split-budget generation），通过解耦推理与答案预算，在MATH-500数据集上显著提升了模型性能，证明了测试时推理应被视为一种预算分配问题。

🔬 方法详解

问题定义：论文旨在解决大模型在固定输出Token限制下，思维链（CoT）推理过程与最终答案生成之间存在的资源竞争问题。现有方法通常假设推理越长越好，忽略了有限预算下推理轨迹对答案生成的“挤出效应”。

核心思路：核心思想是将推理预算与答案生成预算进行解耦。通过分析推理长度与准确率的统计关系，论文提出了一种预算分配视角，认为推理不应无限制延长，而应在推理质量与答案空间之间寻找最优平衡点。

技术框架：整体框架包含推理轨迹生成与答案提取两个阶段。通过引入预算拆分机制，模型在生成推理过程时被限制在特定预算内，随后在独立的答案生成阶段利用剩余预算进行输出，避免了推理过程对答案空间的侵占。

关键创新：最重要的创新在于提出了“截断-浪费分解”公式（Acc_think(b)=α_c F_L(b)+α_t(1-F_L(b))），该公式量化了推理长度对准确率的影响，并能预测不同任务下推理预算的临界点，从而指导模型在不同难度任务下的最优资源分配。

关键设计：关键设计包括IRIS（推理与答案解耦）策略及强化提取变体。此外，通过引入非预言机（non-oracle）的SC+IRIS门控机制，模型能够自动调节推理与答案的预算分配，从而在保持推理深度的同时最大化最终输出的准确性。

🖼️ 关键图片

📊 实验亮点

实验表明，在GSM8K和MATH-500任务中，非思维模式在2048 Token预算内表现优于思维模式。通过采用预算拆分策略，IRIS方法在MATH-500上达到74.0%准确率，强化提取变体提升至78.8%，而结合SC+IRIS门控机制后，准确率进一步跃升至83.6%，有力证明了预算分配优化对提升推理性能的关键作用。

🎯 应用场景

该研究适用于所有依赖思维链推理的大语言模型应用场景，特别是在资源受限的边缘计算设备或高并发推理服务中。通过优化预算分配，开发者可以显著提升模型在数学推理、复杂逻辑分析及代码生成任务中的准确率，为构建更高效、更具成本效益的推理系统提供理论指导与工程实践方案。

📄 摘要（原文）

Chain-of-thought reasoning is often treated as a monotone way to improve language-model accuracy by letting a model think longer. We identify a countervailing effect, the coupling tax: when reasoning traces and final answers share one output-token budget, long traces can crowd out the answer they are meant to support. Across GSM8K, MATH-500, and five BIG-Bench Hard tasks with Qwen3 models at three scales, non-thinking mode matches or outperforms thinking mode on GSM8K and MATH-500 at every budget up to 2048 tokens, while harder tasks shift the crossover to larger budgets. We derive a truncation-waste decomposition, $\mathrm{Acc}_{\mathrm{think}}(b)=α_c F_L(b)+α_t(1-F_L(b))$, that predicts this crossover from chain-length and accuracy statistics and explains inverse scaling within the Qwen family. A DeepSeek-R1-Distill-Llama-8B replication shows the same pattern under a different thinking interface. As a mitigation, split-budget generation decouples reasoning and answer budgets; on full MATH-500, IRIS reaches 74.0% accuracy, a strengthened extraction variant reaches 78.8%, and a fixed non-oracle SC+IRIS gate reaches 83.6%. The results show that test-time reasoning should be evaluated as a budget-allocation problem, not only as a question of whether longer traces are available.

The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理