Measuring Black-Box Confidence via Reasoning Trajectories: Geometry, Coverage, and Verbalization

作者: Marc Boubnovski Martell, Josefa Lia Stoisser, Kaspar Märtens, Jialin Yu, Robert Kitchen, Philip Torr, Jesper Ferkinghoff-Borg

分类: cs.AI

发布日期: 2026-05-07

💡 一句话要点

提出基于推理轨迹几何、覆盖度和文本置信度的黑盒置信度评估方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 置信度评估 链式思考 黑盒模型 推理轨迹 几何信息

📋 核心要点

现有基于自洽性的黑盒置信度评估方法计算成本高昂，且忽略了推理轨迹的几何信息。
提出一种新的黑盒轨迹置信度评分方法，通过分析CoT轨迹的收敛性来评估置信度，无需访问模型内部信息。
实验表明，该方法在多个基准测试中，以更低的计算成本，显著优于自洽性方法，提升了置信度评估的准确性。

📝 摘要（中文）

本文提出了一种黑盒轨迹置信度评分方法，用于评估链式思考（CoT）推理的可靠性，从而安全地部署文本API。该方法将CoT嵌入为滑动窗口轨迹，并通过单参数softmax测量其与外部答案锚点的收敛程度，无需logits、隐藏状态或监督校准器。在MedQA-USMLE、GPQA Diamond和MMLU-Pro等六个基准测试中，使用Gemini 3.1 Pro和Claude Sonnet 4.6，将该评分与覆盖度和文本置信度通道融合，在K=4时优于K=8的自洽性方法（中值AUC 0.78 vs 0.71，deltaAUC=+0.075）。固定选择控制（+0.060）和E5交叉嵌入器复制排除了答案切换和单一供应商伪影。几何形状在倒数第二个窗口中达到峰值，并在GPQA Diamond的终端窗口中反转。研究将黑盒置信度分解为由判断器介导的覆盖度先验（C）、轨迹内几何（G）和条件文本通道（V）三个非支架机制。在18个基准测试x推理器x提议者设置中，C和G在18/18和16/18中提供独立信号，而V在6/18中贡献残余信号。将判断器从GPT-5-mini切换到Claude Sonnet 4.6，G-only AUC保持不变（|delta|<=0.013），C-only AUC最多移动+/-0.02（kappa=0.82）。融合在17/18设置中击败了最佳单通道（中值AUC 0.78，最大0.92）。

🔬 方法详解

问题定义：论文旨在解决黑盒大语言模型在链式思考（CoT）推理中置信度评估的问题。现有方法，如自洽性方法，需要生成多个推理轨迹并进行投票，计算成本高，且没有充分利用推理轨迹中蕴含的几何信息。这些方法无法有效区分正确和错误的推理过程，导致置信度评估不准确。

核心思路：论文的核心思路是将CoT推理过程视为一个轨迹，通过分析轨迹的几何特征（如收敛性）来评估置信度。该方法认为，一个置信度高的推理过程，其轨迹应该逐渐收敛到正确的答案。同时，结合覆盖度和文本置信度信息，进一步提升评估的准确性。

技术框架：该方法主要包含以下几个阶段：1) 将CoT推理过程嵌入为滑动窗口轨迹。2) 使用单参数softmax函数测量轨迹与外部答案锚点的收敛程度。3) 融合轨迹的几何信息、覆盖度信息和文本置信度信息。其中，覆盖度信息通过判断器（如GPT-5-mini或Claude Sonnet 4.6）评估答案的合理性，文本置信度信息则通过分析推理过程中的文本表达来获得。

关键创新：该方法最重要的创新点在于利用推理轨迹的几何信息来评估置信度。与传统的自洽性方法相比，该方法能够更有效地利用推理过程中的信息，从而提高置信度评估的准确性。此外，该方法无需访问模型的logits或隐藏状态，适用于黑盒场景。

关键设计：该方法使用滑动窗口来提取CoT推理轨迹的特征。窗口大小是一个关键参数，需要根据具体的任务和模型进行调整。单参数softmax函数的参数也需要进行优化，以获得最佳的收敛性测量效果。此外，覆盖度和文本置信度信息的融合方式也需要仔细设计，以确保各种信息能够有效地互补。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在MedQA-USMLE、GPQA Diamond和MMLU-Pro等六个基准测试中，显著优于自洽性方法。在K=4时，该方法的中值AUC为0.78，而K=8的自洽性方法的中值AUC为0.71，deltaAUC=+0.075。此外，该方法还具有更低的计算成本。

🎯 应用场景

该研究成果可应用于各种需要可靠置信度评估的场景，例如医疗诊断、金融风险评估和自动驾驶等。通过准确评估模型的置信度，可以提高决策的安全性，并减少错误决策带来的风险。此外，该方法还可以用于提高大语言模型的可解释性和可信度。

📄 摘要（原文）

Reliable confidence estimation enables safe deployment of chain-of-thought (CoT) reasoning through text-only APIs. Yet the dominant black-box baseline, self-consistency over K samples, is linearly expensive and ignores the geometry of the trace. We propose a black-box trajectory-confidence score: we embed a CoT as a sliding-window trajectory and measure its convergence to external answer anchors with a one-parameter softmax. The method needs no logits, hidden states, or supervised calibrators. Across six (benchmark, reasoner) settings on MedQA-USMLE, GPQA Diamond, and MMLU-Pro with Gemini 3.1 Pro and Claude Sonnet 4.6, fusing this score with coverage and verbalized-confidence channels at K=4 yields Pareto improvements over self-consistency at K=8 in 6/6 settings (median AUC 0.78 vs 0.71, deltaAUC=+0.075). A fixed-pick control (+0.060) and E5 cross-embedder replication rule out answer switching and single-vendor artifacts. Geometry peaks in the penultimate window across benchmarks and reasoners, and inverts at the terminal window on GPQA Diamond. Three unscaffolded regimes separate black-box confidence into a judge-mediated Coverage prior (C), within-trace Geometry (G), and a conditional Verbalization channel (V). Across 18 benchmark x reasoner x proposer settings, C and G provide independent signal in 18/18 and 16/18, while V contributes residual signal in 6/18. Swapping the judge from GPT-5-mini to Claude Sonnet 4.6 leaves G-only AUC unchanged (|delta|<=0.013) and shifts C-only AUC by at most +/-0.02 (kappa=0.82). Fusion beats the best single channel in 17/18 settings (median AUC 0.78, max 0.92).

Measuring Black-Box Confidence via Reasoning Trajectories: Geometry, Coverage, and Verbalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理