The Detection--Extraction Gap: Models Know the Answer Before They Can Say It

📄 arXiv: 2604.06613v1 📥 PDF

作者: Hanyang Wang, Mingxuan Zhu

分类: cs.CL, cs.AI, cs.IT, cs.LG

发布日期: 2026-04-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出黑箱自适应早期退出以解决检测与提取之间的差距问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推理模型 检测提取 黑箱自适应早期退出 自然语言处理 生成优化

📋 核心要点

  1. 现有推理模型在生成答案后仍继续生成,导致效率低下和资源浪费。
  2. 提出黑箱自适应早期退出(BAEE),通过自由延续进行答案检测和提取,优化生成过程。
  3. 实验表明,BAEE在减少70-78%生成时间的同时,准确性提高了1-5个百分点,尤其在思维模式模型中效果显著。

📝 摘要(中文)

现代推理模型在答案已经确定后仍然继续生成。研究发现,52-88%的思维链令牌是在答案可从部分前缀中恢复后生成的。这种后承诺生成揭示了一个结构现象:检测-提取差距。通过自由延续,模型可以在10%的轨迹中恢复正确答案,而强制提取在42%的情况下失败。论文通过自由和强制延续分布之间的总变差界限形式化这种不匹配,提出了黑箱自适应早期退出(BAEE),利用自由延续进行检测和提取,减少了70-78%的串行生成,同时提高了1-5个百分点的准确性。

🔬 方法详解

问题定义:本论文旨在解决现代推理模型在生成答案后仍继续生成的问题,导致效率低下和资源浪费。现有方法在答案可恢复时,强制提取往往失败,造成检测与提取之间的差距。

核心思路:论文提出黑箱自适应早期退出(BAEE),利用自由延续进行答案的检测和提取,避免了后承诺生成带来的问题,从而优化生成过程。

技术框架:BAEE的整体架构包括两个主要模块:自由延续模块和强制提取模块。自由延续模块负责在生成过程中动态评估答案的可恢复性,而强制提取模块则在必要时进行答案的提取。

关键创新:最重要的技术创新点在于通过自由延续实现检测与提取的统一,显著减少了生成时间,并提高了准确性。这一方法与现有方法的本质区别在于不再依赖于强制提取,而是利用模型的自由生成能力。

关键设计:在参数设置上,BAEE采用了动态阈值来决定何时进行早期退出,损失函数设计上则考虑了生成的准确性与效率之间的平衡。网络结构上,模型通过引入注意力机制来增强对上下文信息的理解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,BAEE在所有模型上减少了70-78%的串行生成时间,同时提高了1-5个百分点的准确性。在思维模式模型中,早期退出有效防止了后承诺覆盖,带来了最高5.8个百分点的准确性提升,且成本优化变体在API调用中实现了68-73%的减少。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和智能问答等。通过优化推理模型的生成效率和准确性,BAEE可以在实际应用中显著提升用户体验,降低计算资源消耗,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Modern reasoning models continue generating long after the answer is already determined. Across five model configurations, two families, and three benchmarks, we find that \textbf{52--88\% of chain-of-thought tokens are produced after the answer is recoverable} from a partial prefix. This post-commitment generation reveals a structural phenomenon: the \textbf{detection--extraction gap}. Free continuations from early prefixes recover the correct answer even at 10\% of the trace, while forced extraction fails on 42\% of these cases. The answer is recoverable from the model state, yet prompt-conditioned decoding fails to extract it. We formalize this mismatch via a total-variation bound between free and forced continuation distributions, yielding quantitative estimates of suffix-induced shift. Exploiting this asymmetry, we propose Black-box Adaptive Early Exit (\BAEE{}), which uses free continuations for both detection and extraction, truncating \textbf{70--78\% of serial generation} while \textbf{improving accuracy by 1--5\,pp} across all models. For thinking-mode models, early exit prevents post-commitment overwriting, yielding gains of up to 5.8\,pp; a cost-optimized variant achieves 68--73\% reduction at a median of 9 API calls. Code is available at https://github.com/EdWangLoDaSc/know2say.