Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation
作者: Richard J. Young
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-03-20
备注: 14 pages, 4 figures, 5 tables
💡 一句话要点
CoT忠实度评估受分类器选择影响显著,单一指标不可靠
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链 忠实度评估 大型语言模型 分类器敏感性 可解释性
📋 核心要点
- 现有CoT忠实度评估方法依赖单一指标,忽略了评估方法本身对结果的影响。
- 本文通过对比不同分类器在相同数据上的表现,揭示了忠实度评估的主观性。
- 实验结果表明,分类器的选择会显著影响忠实度评分和模型排名,强调多方法评估的必要性。
📝 摘要(中文)
近期关于思维链(CoT)忠实度的研究报告了单一的聚合数字,暗示忠实度是模型客观、可测量的属性。本文证明事实并非如此。本文使用三个分类器(仅使用正则表达式的检测器、两阶段的正则表达式+LLM流水线和一个独立的Claude Sonnet 4 judge)应用于来自12个开放权重模型(参数规模从7B到1T)的10276个受影响的推理轨迹。在相同的数据上,这些分类器产生的总体忠实度分别为74.4%、82.6%和69.7%,且95%置信区间不重叠。每个模型的差距范围从2.6到30.6个百分点不等,所有这些差距都具有统计学意义(McNemar检验,p < 0.001)。分类器之间的分歧是系统性的,而非随机的:通过Cohen's kappa测量的分类器间一致性,对于谄媚提示为0.06(“轻微”),对于评分者提示为0.42(“中等”),并且不对称性非常明显。分类器的选择也会逆转模型排名。结果表明,使用不同分类器的研究中发布的忠实度数字无法进行有意义的比较,未来的评估应报告跨多种分类方法的敏感度范围,而不是单一的点估计。
🔬 方法详解
问题定义:论文旨在解决CoT推理忠实度评估中存在的客观性问题。现有方法通常使用单一分类器来评估模型的忠实度,这忽略了不同分类器可能对忠实度有不同的理解和衡量标准,导致评估结果缺乏可比性和可靠性。
核心思路:论文的核心思路是证明CoT推理忠实度评估结果高度依赖于所使用的分类器。通过在相同的数据集上应用不同的分类器,并比较它们的结果,论文揭示了不同分类器对忠实度的理解存在差异,从而影响了评估结果。
技术框架:论文的技术框架主要包括以下几个步骤:1) 收集包含受影响推理轨迹的数据集;2) 选择三种不同的分类器:基于正则表达式的检测器、两阶段的正则表达式+LLM流水线和独立的LLM judge;3) 使用这些分类器对数据集进行忠实度评估;4) 比较不同分类器的评估结果,并进行统计分析,以确定它们之间是否存在显著差异。
关键创新:论文的关键创新在于它揭示了CoT推理忠实度评估的主观性,并强调了使用多种分类器进行评估的必要性。这挑战了现有研究中普遍存在的假设,即忠实度是模型的一个客观属性,可以通过单一指标来衡量。
关键设计:论文的关键设计包括选择具有代表性的分类器,这些分类器在复杂度和评估策略上有所不同。此外,论文还使用了McNemar检验等统计方法来评估不同分类器之间的差异是否具有统计学意义。论文还关注了不同分类器在不同类型的提示上的表现差异,例如谄媚提示和评分者提示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在相同数据集上,不同分类器产生的总体忠实度评分差异显著,范围从69.7%到82.6%不等,且95%置信区间不重叠。模型排名也会因分类器选择而逆转,例如Qwen3.5-27B在一种分类器下排名第一,但在另一种分类器下排名第七。这些结果强调了单一忠实度指标的局限性。
🎯 应用场景
该研究成果对LLM的评估和选择具有重要意义。它提醒研究人员和开发者在评估LLM的忠实度时,应考虑评估方法本身的影响,并采用多种评估方法来获得更全面和可靠的结果。这有助于选择更适合特定任务的LLM,并提高LLM应用的安全性。
📄 摘要(原文)
Recent work on chain-of-thought (CoT) faithfulness reports single aggregate numbers (e.g., DeepSeek-R1 acknowledges hints 39% of the time), implying that faithfulness is an objective, measurable property of a model. This paper demonstrates that it is not. Three classifiers (a regex-only detector, a two-stage regex-plus-LLM pipeline, and an independent Claude Sonnet 4 judge) are applied to 10,276 influenced reasoning traces from 12 open-weight models spanning 9 families and 7B to 1T parameters. On identical data, these classifiers produce overall faithfulness rates of 74.4%, 82.6%, and 69.7%, respectively, with non-overlapping 95% confidence intervals. Per-model gaps range from 2.6 to 30.6 percentage points; all are statistically significant (McNemar's test, p < 0.001). The disagreements are systematic, not random: inter-classifier agreement measured by Cohen's kappa ranges from 0.06 ("slight") for sycophancy hints to 0.42 ("moderate") for grader hints, and the asymmetry is pronounced: for sycophancy, 883 cases are classified as faithful by the pipeline but unfaithful by the Sonnet judge, while only 2 go the other direction. Classifier choice can also reverse model rankings: Qwen3.5-27B ranks 1st under the pipeline but 7th under the Sonnet judge; OLMo-3.1-32B moves in the opposite direction, from 9th to 3rd. The root cause is that different classifiers operationalize related faithfulness constructs at different levels of stringency (lexical mention versus epistemic dependence), and these constructs yield divergent measurements on the same behavior. These results demonstrate that published faithfulness numbers cannot be meaningfully compared across studies that use different classifiers, and that future evaluations should report sensitivity ranges across multiple classification methodologies rather than single point estimates.