The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies

📄 arXiv: 2605.10799v1 📥 PDF

作者: Gabriel Garcia

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-11

备注: 34 pages, 6 figures, 13 tables. Submitted to NeurIPS 2026. Code and data: https://github.com/Gpgabriel25/LastWordWinsCoT


💡 一句话要点

揭示思维链忠实度评估中的格式混淆问题:末尾答案偏见对模型推理分析的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 模型可解释性 忠实度评估 大语言模型 推理分析 格式偏见

📋 核心要点

  1. 现有思维链腐蚀研究存在严重的格式混淆,无法准确区分模型是基于推理逻辑还是仅依赖末尾答案文本进行预测。
  2. 论文通过格式消融与冲突答案实验,证明了模型对末尾答案的过度依赖,并量化了该效应随模型规模的演变规律。
  3. 提出了包含问题控制、格式表征及全位置扫描的三阶段评估协议,为未来更严谨的CoT忠实度研究设定了最低标准。

📝 摘要(中文)

腐蚀研究(Corruption studies)是评估思维链(CoT)忠实度的主要工具,通过替换推理步骤并观察准确率变化来识别“计算重要”的位置。本文指出该方法存在系统性混淆:在包含明确末尾答案陈述(如“答案是X”)的标准基准中,腐蚀研究检测到的并非计算发生的位置,而是答案文本出现的位置。通过数据集内格式消融实验,作者发现移除答案陈述后,后缀敏感度在3B模型中下降了约19倍。冲突答案实验进一步量化了这一因果机制:7B模型在多种架构下对错误答案的跟随率极高,该效应随模型规模增大而减弱,在32B模型趋近于零。研究表明,模型在生成时并未提前确定答案,但在消费时却系统性地遵循显式答案文本。作者据此提出了包含问题控制、格式表征和全位置扫描的三阶段评估协议。

🔬 方法详解

问题定义:现有CoT忠实度评估方法通过“腐蚀”推理步骤来定位关键计算点,但忽略了标准基准中“答案后缀”(如“The answer is X”)对模型预测的强干扰,导致评估结果反映的是模型对格式的敏感度而非逻辑推理能力。

核心思路:通过对比实验剥离格式影响。作者设计了“移除答案陈述”的消融实验,并引入“冲突答案”测试,观察模型在推理逻辑与末尾答案不一致时的行为,从而验证模型对答案文本的依赖程度。

技术框架:研究流程包括:1. 格式消融实验,对比含/不含答案后缀的链条敏感度;2. 冲突答案实验,通过注入错误答案测试模型跟随倾向;3. 生成时探测,利用探针技术验证答案是否在生成早期被确定;4. 协议构建,确立包含控制组、格式表征和全位置扫描的评估范式。

关键创新:首次揭示了CoT腐蚀研究中的“末尾答案偏见”混淆,证明了模型在推理阶段的逻辑一致性与输出阶段的格式依赖存在解耦,并量化了该效应随模型参数规模(从3B到32B)的衰减趋势。

关键设计:采用了“问题唯一控制”(Question-only control)作为基准,通过全位置扫描(All-position sweep)确保评估覆盖整个推理链,并利用生成时探针(Generation-time probes)验证答案确定的时间点,确保评估协议的稳健性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验表明,在3B模型中,移除答案后缀使后缀敏感度下降约19倍;在7B模型中,模型对错误答案的跟随率高达0.63-1.00。该效应在14B模型中依然显著(8.5倍),直至32B模型才趋于消失。此外,在无答案后缀的链条中,模型表现出对前缀的依赖,证明了评估协议必须考虑格式因素。

🎯 应用场景

该研究对大语言模型的可解释性研究具有重要意义,特别是在金融、医疗等高风险领域的推理验证中。它提醒研究者在评估模型逻辑忠实度时必须排除格式干扰,有助于开发更可靠的推理评估基准,并指导模型训练中减少对特定输出格式的过度拟合。

📄 摘要(原文)

Corruption studies, the primary tool for evaluating chain-of-thought (CoT) faithfulness, identify which chain positions are "computationally important" by measuring accuracy when steps are replaced with errors. We identify a systematic confound: for chains with explicit terminal answer statements, the dominant format in standard benchmarks, corruption studies detect where the answer text appears, not where computation occurs. A within-dataset format ablation provides the key evidence: on standard GSM8K chains ending with "the answer is X," removing only the answer statement, preserving all reasoning, collapses suffix sensitivity ~19x at 3B (N=300, p=0.022). Conflicting-answer experiments quantify the causal mechanism: at 7B, CC accuracy drops to near-zero (<=0.02) across five architecture families; the followed-wrong rate spans 0.63-1.00 at 3B-7B and attenuates at larger scales (0.300 at Phi-4-14B, ~0.01 at 32B). A within-stable 7B replication (9.3x attenuation, N=76, p=7.8e-3; Qwen3-8B N=299, p=0.004) provides converging evidence, and the pattern replicates on MATH (DeepSeek-R1-7B: 10.9x suffix-survival recovery). On chains without answer suffixes the same protocol identifies the prefix as load-bearing (Delta=-0.77, p<10^-12). Generation-time probes confirm a dissociation: the answer is not early-determined during generation (early commitment <5%), yet at consumption time model outputs systematically follow the explicit answer text. The format-determination effect persists through 14B (8.5x ratio, p=0.001) and converges toward zero at 32B. We propose a three-prerequisite protocol (question-only control, format characterization, all-position sweep) as a minimum standard for corruption-based faithfulness studies.