Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity

📄 arXiv: 2510.27378v2 📥 PDF

作者: Austin Meek, Eitan Sprejer, Iván Arcuschin, Austin J. Brockmeier, Steven Basart

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-31 (更新: 2025-11-30)

备注: Project page at https://ajmeek.github.io/cot_monitorability_website/


💡 一句话要点

提出基于忠实性和冗余度的CoT可监控性度量方法,评估模型推理过程透明度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 可监控性 忠实性 冗余度 大型语言模型 推理过程 安全评估

📋 核心要点

  1. 现有方法在评估CoT的忠实性时,主要关注模型在提示改变后答案的变化,忽略了模型保持答案不变时的潜在问题。
  2. 论文提出通过结合忠实性和冗余度来评估CoT的可监控性,其中冗余度衡量CoT是否列出了解决任务所需的全部因素。
  3. 实验结果表明,模型可能表现出忠实性,但由于遗漏关键信息而难以监控,且不同模型家族的可监控性存在显著差异。

📝 摘要(中文)

思维链(CoT)输出允许我们读取模型逐步推理的过程。由于任何长期的、串行的推理过程都必须通过这种文本痕迹,因此CoT的质量直接反映了模型的思考过程。这种可见性有助于我们发现不安全或未对齐的行为(可监控性),但这只有在CoT对其内部推理过程透明(忠实性)时才有效。完全衡量忠实性是困难的,因此研究人员通常侧重于检查模型在添加提示后改变答案的情况下的CoT。这种代理方法发现了一些不忠实的实例,但在模型保持其答案时会丢失信息,并且不调查与提示无关的推理方面。我们通过引入冗余度来将这些结果扩展到更全面的可监控性:CoT是否列出了解决任务所需的每个因素。我们将忠实性和冗余度结合到一个单一的可监控性评分中,该评分显示了CoT作为模型的外部“工作记忆”的良好程度,许多基于CoT监控的安全方案都依赖于此属性。我们在BBH、GPQA和MMLU上评估了指令调整和推理模型。我们的结果表明,模型可能看起来是忠实的,但当它们遗漏关键因素时仍然难以监控,并且不同模型系列的可监控性差异很大。我们发布了使用Inspect库的评估代码,以支持可重复的未来工作。

🔬 方法详解

问题定义:论文旨在解决如何更全面地评估思维链(CoT)的可监控性问题。现有方法主要通过观察模型在输入提示改变后答案是否变化来评估CoT的忠实性,这种方法忽略了模型保持答案不变但推理过程不透明的情况,也无法评估与提示无关的推理过程。因此,现有方法无法全面衡量CoT作为模型外部“工作记忆”的有效性。

核心思路:论文的核心思路是将CoT的可监控性分解为两个关键维度:忠实性和冗余度。忠实性衡量CoT是否准确反映了模型的内部推理过程,而冗余度衡量CoT是否包含了解决问题所需的全部关键因素。通过同时评估这两个维度,可以更全面地了解CoT的可监控性。

技术框架:论文提出了一个评估CoT可监控性的框架,该框架包括以下步骤:1) 给定一个问题,模型生成CoT推理过程和最终答案;2) 评估CoT的忠实性,即CoT是否准确反映了模型的内部推理过程;3) 评估CoT的冗余度,即CoT是否包含了解决问题所需的全部关键因素;4) 将忠实性和冗余度结合起来,计算一个综合的可监控性评分。

关键创新:论文的关键创新在于引入了冗余度这一概念,并将其与忠实性相结合,形成了一个更全面的CoT可监控性度量指标。与现有方法相比,该方法不仅考虑了模型在提示改变后答案的变化,还考虑了CoT是否包含了解决问题所需的全部关键因素,从而更准确地评估了CoT作为模型外部“工作记忆”的有效性。

关键设计:论文使用Inspect库来实现评估代码,并发布了该代码以支持可重复的未来工作。在实验中,论文使用了BBH、GPQA和MMLU等多个基准数据集,并评估了指令调整和推理模型在这些数据集上的可监控性。论文没有明确说明具体的参数设置、损失函数或网络结构,而是侧重于提出一种通用的评估框架。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,模型可能表现出较高的忠实性,但由于遗漏关键因素,其可监控性仍然较低。此外,不同模型家族的可监控性存在显著差异,表明模型架构和训练方法对CoT的质量有重要影响。该研究为评估和改进大型语言模型的可信赖性和安全性提供了新的思路。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的可信赖性和安全性。通过提高CoT的可监控性,可以更容易地发现模型潜在的错误推理或不安全行为,从而降低模型在实际应用中产生负面影响的风险。此外,该研究还可以帮助开发更有效的CoT生成方法,提高模型的推理能力和透明度。

📄 摘要(原文)

Chain-of-thought (CoT) outputs let us read a model's step-by-step reasoning. Since any long, serial reasoning process must pass through this textual trace, the quality of the CoT is a direct window into what the model is thinking. This visibility could help us spot unsafe or misaligned behavior (monitorability), but only if the CoT is transparent about its internal reasoning (faithfulness). Fully measuring faithfulness is difficult, so researchers often focus on examining the CoT in cases where the model changes its answer after adding a cue to the input. This proxy finds some instances of unfaithfulness but loses information when the model maintains its answer, and does not investigate aspects of reasoning not tied to the cue. We extend these results to a more holistic sense of monitorability by introducing verbosity: whether the CoT lists every factor needed to solve the task. We combine faithfulness and verbosity into a single monitorability score that shows how well the CoT serves as the model's external `working memory', a property that many safety schemes based on CoT monitoring depend on. We evaluate instruction-tuned and reasoning models on BBH, GPQA, and MMLU. Our results show that models can appear faithful yet remain hard to monitor when they leave out key factors, and that monitorability differs sharply across model families. We release our evaluation code using the Inspect library to support reproducible future work.