Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization

作者: Kerem Zaman, Shashank Srivastava

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-28

备注: 18 pages, 20 figures, 5 tables

💡 一句话要点

重新评估思维链解释性：提示词信息缺失不代表不忠实

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链 可解释性 忠实性 提示词信息 因果中介分析

📋 核心要点

现有基于提示词信息的思维链忠实性评估方法，如Biasing Features，可能将不完整性误判为不忠实。
论文提出，思维链中提示词信息的缺失可能是由于token预算限制导致的信息压缩，而非模型本身的不忠实。
实验表明，增加token预算可以显著提高提示词信息的表达，且即使提示词信息未明确表达，也能通过因果关系影响预测。

📝 摘要（中文）

最近的研究使用Biasing Features指标来判断思维链（CoT）是否忠实，如果CoT省略了影响预测的提示词信息，则认为是不忠实的。本文认为该指标混淆了不忠实和不完整性，后者是将分布式Transformer计算转化为线性自然语言叙述时所需的有损压缩。在Llama-3和Gemma-3的多跳推理任务中，许多被Biasing Features标记为不忠实的CoT，通过其他指标判断为忠实，在某些模型中超过50%。通过新的faithful@k指标，本文表明更大的推理时token预算显著增加了提示词信息的表达（在某些设置中高达90%），表明许多表面上的不忠实是由于token限制造成的。使用因果中介分析，本文进一步表明，即使是非语言化的提示词信息也可以通过CoT因果地调节预测变化。因此，本文告诫不要仅仅依赖于基于提示词的评估，并提倡更广泛的可解释性工具包，包括因果中介和基于损坏的指标。

🔬 方法详解

问题定义：现有方法，特别是使用Biasing Features指标的方法，在评估思维链（CoT）的忠实性时，如果CoT未能明确地将prompt中注入的提示词信息表达出来，就会被判定为不忠实。然而，这种评估方式忽略了大型语言模型在生成CoT时，由于token数量限制而可能进行的信息压缩，即将分布式计算过程转化为线性自然语言叙述时必然会丢失部分信息。因此，现有方法的痛点在于将信息不完整性误判为不忠实性。

核心思路：本文的核心思路是重新审视思维链的忠实性评估标准，认为仅仅依赖提示词信息的表达来判断CoT是否忠实是不够全面的。论文提出，即使CoT没有明确地将提示词信息表达出来，这些信息仍然可以通过因果关系影响最终的预测结果。因此，需要更全面的可解释性工具，例如因果中介分析和基于损坏的指标，来更准确地评估CoT的忠实性。

技术框架：论文主要使用了以下技术框架：1) 使用Llama-3和Gemma-3等大型语言模型进行多跳推理任务。2) 使用Biasing Features指标评估CoT的忠实性，并分析其局限性。3) 引入新的faithful@k指标，通过增加推理时token预算来观察提示词信息的表达情况。4) 使用因果中介分析来研究提示词信息对预测结果的因果影响。

关键创新：论文最重要的技术创新点在于对思维链忠实性评估的重新思考。论文指出，仅仅依赖提示词信息的表达来判断CoT是否忠实是不够全面的，应该考虑信息压缩和因果关系等因素。此外，论文还提出了新的faithful@k指标，并使用因果中介分析来更全面地评估CoT的忠实性。与现有方法的本质区别在于，论文不再简单地将提示词信息的缺失等同于不忠实，而是从更深层次的角度分析了CoT的生成过程和推理机制。

关键设计：论文的关键设计包括：1) faithful@k指标：该指标衡量在给定token预算下，CoT能够表达多少提示词信息。通过增加token预算，可以观察到提示词信息的表达情况。2) 因果中介分析：该方法用于研究提示词信息对预测结果的因果影响，即使提示词信息没有明确地表达出来，也可以通过CoT间接地影响预测结果。3) 使用Llama-3和Gemma-3等先进的大型语言模型进行实验，保证了实验结果的可靠性和代表性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用Biasing Features指标评估CoT的忠实性时，存在较高的误判率。在Llama-3和Gemma-3模型上，许多被Biasing Features标记为不忠实的CoT，通过其他指标判断为忠实，在某些模型中超过50%。此外，增加推理时token预算可以显著提高提示词信息的表达，在某些设置中高达90%。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性和可靠性，尤其是在需要高精度推理和决策的场景，如医疗诊断、金融分析和法律咨询等。通过更准确地评估思维链的忠实性，可以提高人们对模型预测结果的信任度，并促进模型在实际应用中的推广。

📄 摘要（原文）

Recent work, using the Biasing Features metric, labels a CoT as unfaithful if it omits a prompt-injected hint that affected the prediction. We argue this metric confuses unfaithfulness with incompleteness, the lossy compression needed to turn distributed transformer computation into a linear natural language narrative. On multi-hop reasoning tasks with Llama-3 and Gemma-3, many CoTs flagged as unfaithful by Biasing Features are judged faithful by other metrics, exceeding 50% in some models. With a new faithful@k metric, we show that larger inference-time token budgets greatly increase hint verbalization (up to 90% in some settings), suggesting much apparent unfaithfulness is due to tight token limits. Using Causal Mediation Analysis, we further show that even non-verbalized hints can causally mediate prediction changes through the CoT. We therefore caution against relying solely on hint-based evaluations and advocate a broader interpretability toolkit, including causal mediation and corruption-based metrics.

Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理