The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits
作者: Wenhua Nie, Junlin Liu, Jianan Wu, Zijie Meng, Yilong Fan, Zhang Zijian, Haoran Zheng, Jyh-Shing Roger Jang
分类: cs.LG
发布日期: 2026-05-08
备注: 40 pages, 6 figures
💡 一句话要点
揭示推理链中的“耦合税”现象:提出预算解耦策略以优化大模型推理性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链推理 大模型推理 预算分配 性能优化 推理效率 数学推理
📋 核心要点
- 核心问题:在固定输出Token预算下,推理轨迹过长会挤占答案生成空间,导致“耦合税”效应,反而降低模型准确率。
- 方法要点:提出预算拆分生成策略,将推理过程与答案生成解耦,并推导了截断-浪费分解公式以预测性能交叉点。
- 实验效果:通过IRIS等方法,在MATH-500数据集上实现了从74.0%到83.6%的准确率提升,验证了预算分配优化的有效性。
📝 摘要(中文)
思维链(CoT)推理常被视为提升语言模型准确性的单调递增手段,但本文揭示了一种反向效应——“耦合税”:当推理过程与最终答案共享同一个输出Token预算时,过长的推理轨迹会挤占答案所需的空间。通过在Qwen3系列模型及DeepSeek-R1-Distill-Llama-8B上的实验,研究发现,在固定预算下,非思维模式在GSM8K和MATH-500等任务上往往表现更优。作者推导了截断-浪费分解公式,量化了推理长度与准确率间的权衡。为缓解该问题,本文提出了预算拆分生成策略(Split-budget generation),通过解耦推理与答案预算,在MATH-500数据集上显著提升了模型性能,证明了测试时推理应被视为一种预算分配问题。
🔬 方法详解
问题定义:论文旨在解决大模型在固定输出Token限制下,思维链(CoT)推理过程与最终答案生成之间存在的资源竞争问题。现有方法通常假设推理越长越好,忽略了有限预算下推理轨迹对答案生成的“挤出效应”。
核心思路:核心思想是将推理预算与答案生成预算进行解耦。通过分析推理长度与准确率的统计关系,论文提出了一种预算分配视角,认为推理不应无限制延长,而应在推理质量与答案空间之间寻找最优平衡点。
技术框架:整体框架包含推理轨迹生成与答案提取两个阶段。通过引入预算拆分机制,模型在生成推理过程时被限制在特定预算内,随后在独立的答案生成阶段利用剩余预算进行输出,避免了推理过程对答案空间的侵占。
关键创新:最重要的创新在于提出了“截断-浪费分解”公式(Acc_think(b)=α_c F_L(b)+α_t(1-F_L(b))),该公式量化了推理长度对准确率的影响,并能预测不同任务下推理预算的临界点,从而指导模型在不同难度任务下的最优资源分配。
关键设计:关键设计包括IRIS(推理与答案解耦)策略及强化提取变体。此外,通过引入非预言机(non-oracle)的SC+IRIS门控机制,模型能够自动调节推理与答案的预算分配,从而在保持推理深度的同时最大化最终输出的准确性。
🖼️ 关键图片
📊 实验亮点
实验表明,在GSM8K和MATH-500任务中,非思维模式在2048 Token预算内表现优于思维模式。通过采用预算拆分策略,IRIS方法在MATH-500上达到74.0%准确率,强化提取变体提升至78.8%,而结合SC+IRIS门控机制后,准确率进一步跃升至83.6%,有力证明了预算分配优化对提升推理性能的关键作用。
🎯 应用场景
该研究适用于所有依赖思维链推理的大语言模型应用场景,特别是在资源受限的边缘计算设备或高并发推理服务中。通过优化预算分配,开发者可以显著提升模型在数学推理、复杂逻辑分析及代码生成任务中的准确率,为构建更高效、更具成本效益的推理系统提供理论指导与工程实践方案。
📄 摘要(原文)
Chain-of-thought reasoning is often treated as a monotone way to improve language-model accuracy by letting a model think longer. We identify a countervailing effect, the coupling tax: when reasoning traces and final answers share one output-token budget, long traces can crowd out the answer they are meant to support. Across GSM8K, MATH-500, and five BIG-Bench Hard tasks with Qwen3 models at three scales, non-thinking mode matches or outperforms thinking mode on GSM8K and MATH-500 at every budget up to 2048 tokens, while harder tasks shift the crossover to larger budgets. We derive a truncation-waste decomposition, $\mathrm{Acc}_{\mathrm{think}}(b)=α_c F_L(b)+α_t(1-F_L(b))$, that predicts this crossover from chain-length and accuracy statistics and explains inverse scaling within the Qwen family. A DeepSeek-R1-Distill-Llama-8B replication shows the same pattern under a different thinking interface. As a mitigation, split-budget generation decouples reasoning and answer budgets; on full MATH-500, IRIS reaches 74.0% accuracy, a strengthened extraction variant reaches 78.8%, and a fixed non-oracle SC+IRIS gate reaches 83.6%. The results show that test-time reasoning should be evaluated as a budget-allocation problem, not only as a question of whether longer traces are available.