Measuring Black-Box Confidence via Reasoning Trajectories: Geometry, Coverage, and Verbalization

📄 arXiv: 2605.06308v1 📥 PDF

作者: Marc Boubnovski Martell, Josefa Lia Stoisser, Kaspar Märtens, Jialin Yu, Robert Kitchen, Philip Torr, Jesper Ferkinghoff-Borg

分类: cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出基于推理轨迹几何、覆盖度和文本置信度的黑盒置信度评估方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 置信度评估 链式思考 黑盒模型 推理轨迹 几何信息

📋 核心要点

  1. 现有基于自洽性的黑盒置信度评估方法计算成本高昂,且忽略了推理轨迹的几何信息。
  2. 提出一种新的黑盒轨迹置信度评分方法,通过分析CoT轨迹的收敛性来评估置信度,无需访问模型内部信息。
  3. 实验表明,该方法在多个基准测试中,以更低的计算成本,显著优于自洽性方法,提升了置信度评估的准确性。

📝 摘要(中文)

本文提出了一种黑盒轨迹置信度评分方法,用于评估链式思考(CoT)推理的可靠性,从而安全地部署文本API。该方法将CoT嵌入为滑动窗口轨迹,并通过单参数softmax测量其与外部答案锚点的收敛程度,无需logits、隐藏状态或监督校准器。在MedQA-USMLE、GPQA Diamond和MMLU-Pro等六个基准测试中,使用Gemini 3.1 Pro和Claude Sonnet 4.6,将该评分与覆盖度和文本置信度通道融合,在K=4时优于K=8的自洽性方法(中值AUC 0.78 vs 0.71,deltaAUC=+0.075)。固定选择控制(+0.060)和E5交叉嵌入器复制排除了答案切换和单一供应商伪影。几何形状在倒数第二个窗口中达到峰值,并在GPQA Diamond的终端窗口中反转。研究将黑盒置信度分解为由判断器介导的覆盖度先验(C)、轨迹内几何(G)和条件文本通道(V)三个非支架机制。在18个基准测试x推理器x提议者设置中,C和G在18/18和16/18中提供独立信号,而V在6/18中贡献残余信号。将判断器从GPT-5-mini切换到Claude Sonnet 4.6,G-only AUC保持不变(|delta|<=0.013),C-only AUC最多移动+/-0.02(kappa=0.82)。融合在17/18设置中击败了最佳单通道(中值AUC 0.78,最大0.92)。

🔬 方法详解

问题定义:论文旨在解决黑盒大语言模型在链式思考(CoT)推理中置信度评估的问题。现有方法,如自洽性方法,需要生成多个推理轨迹并进行投票,计算成本高,且没有充分利用推理轨迹中蕴含的几何信息。这些方法无法有效区分正确和错误的推理过程,导致置信度评估不准确。

核心思路:论文的核心思路是将CoT推理过程视为一个轨迹,通过分析轨迹的几何特征(如收敛性)来评估置信度。该方法认为,一个置信度高的推理过程,其轨迹应该逐渐收敛到正确的答案。同时,结合覆盖度和文本置信度信息,进一步提升评估的准确性。

技术框架:该方法主要包含以下几个阶段:1) 将CoT推理过程嵌入为滑动窗口轨迹。2) 使用单参数softmax函数测量轨迹与外部答案锚点的收敛程度。3) 融合轨迹的几何信息、覆盖度信息和文本置信度信息。其中,覆盖度信息通过判断器(如GPT-5-mini或Claude Sonnet 4.6)评估答案的合理性,文本置信度信息则通过分析推理过程中的文本表达来获得。

关键创新:该方法最重要的创新点在于利用推理轨迹的几何信息来评估置信度。与传统的自洽性方法相比,该方法能够更有效地利用推理过程中的信息,从而提高置信度评估的准确性。此外,该方法无需访问模型的logits或隐藏状态,适用于黑盒场景。

关键设计:该方法使用滑动窗口来提取CoT推理轨迹的特征。窗口大小是一个关键参数,需要根据具体的任务和模型进行调整。单参数softmax函数的参数也需要进行优化,以获得最佳的收敛性测量效果。此外,覆盖度和文本置信度信息的融合方式也需要仔细设计,以确保各种信息能够有效地互补。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在MedQA-USMLE、GPQA Diamond和MMLU-Pro等六个基准测试中,显著优于自洽性方法。在K=4时,该方法的中值AUC为0.78,而K=8的自洽性方法的中值AUC为0.71,deltaAUC=+0.075。此外,该方法还具有更低的计算成本。

🎯 应用场景

该研究成果可应用于各种需要可靠置信度评估的场景,例如医疗诊断、金融风险评估和自动驾驶等。通过准确评估模型的置信度,可以提高决策的安全性,并减少错误决策带来的风险。此外,该方法还可以用于提高大语言模型的可解释性和可信度。

📄 摘要(原文)

Reliable confidence estimation enables safe deployment of chain-of-thought (CoT) reasoning through text-only APIs. Yet the dominant black-box baseline, self-consistency over K samples, is linearly expensive and ignores the geometry of the trace. We propose a black-box trajectory-confidence score: we embed a CoT as a sliding-window trajectory and measure its convergence to external answer anchors with a one-parameter softmax. The method needs no logits, hidden states, or supervised calibrators. Across six (benchmark, reasoner) settings on MedQA-USMLE, GPQA Diamond, and MMLU-Pro with Gemini 3.1 Pro and Claude Sonnet 4.6, fusing this score with coverage and verbalized-confidence channels at K=4 yields Pareto improvements over self-consistency at K=8 in 6/6 settings (median AUC 0.78 vs 0.71, deltaAUC=+0.075). A fixed-pick control (+0.060) and E5 cross-embedder replication rule out answer switching and single-vendor artifacts. Geometry peaks in the penultimate window across benchmarks and reasoners, and inverts at the terminal window on GPQA Diamond. Three unscaffolded regimes separate black-box confidence into a judge-mediated Coverage prior (C), within-trace Geometry (G), and a conditional Verbalization channel (V). Across 18 benchmark x reasoner x proposer settings, C and G provide independent signal in 18/18 and 16/18, while V contributes residual signal in 6/18. Swapping the judge from GPT-5-mini to Claude Sonnet 4.6 leaves G-only AUC unchanged (|delta|<=0.013) and shifts C-only AUC by at most +/-0.02 (kappa=0.82). Fusion beats the best single channel in 17/18 settings (median AUC 0.78, max 0.92).