CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency

作者: Hirofumi Ota, Naoto Iwase, Yuki Ichihara, Junpei Komiyama, Masaaki Imaizumi

分类: stat.ML, cs.AI, cs.LG, math.ST, stat.ME

发布日期: 2026-05-07

💡 一句话要点

提出CITE算法，实现大模型自洽性采样中任意时刻有效的统计推断与错误控制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自洽性 统计推断 E-过程 序贯分析 不确定性量化 可靠性评估

📋 核心要点

现有方法在数据依赖的采样停止规则下，难以在未知答案空间中有效控制统计错误率。
提出CITE算法，利用交集-并集检验与E-过程，实现对目标答案众数地位的严格统计认证。
实验证明该方法在长尾分布下具备稳健的错误控制能力，且停止时间速率与类别集大小无关。

📝 摘要（中文）

大语言模型常通过采样多个输出并聚合结果来提升推理能力，但如何精确且高效地控制错误水平仍具挑战。特别是在停止规则依赖于数据且答案空间未知的情况下，确定何时停止采样非常困难。本文研究了在模型响应分布中，将预设目标答案认证为唯一众数的任意时刻有效（anytime-valid）统计推断问题，这与答案正确性保证不同。作者提出了基于交集-并集检验与E-过程的认证算法（CITE），该算法在任意数据驱动的停止规则下，无需预知答案类别集，即可在预设水平上严格控制错误认证率。研究证明了该算法具有与类别集大小无关的停止时间速率，并建立了极小极大下界。模拟与LLM自洽性实验表明，CITE在长尾分布场景下表现出优异的错误控制能力与认证效率。

🔬 方法详解

问题定义：论文旨在解决大模型自洽性（Self-Consistency）采样中的统计推断问题。核心痛点在于：当采样停止规则是动态的（即取决于已观测到的样本），且模型可能的输出空间（答案集）事先未知时，如何保证“目标答案是模型响应分布的唯一众数”这一结论的统计显著性，并严格控制假阳性率。

核心思路：论文引入了“任意时刻有效”（Anytime-valid）的统计推断框架。通过将认证问题转化为一系列假设检验，利用E-过程（E-processes）来构建鞅（Martingale），从而在任意停止时间下都能保持对错误率的严格控制，无需对答案空间进行预设。

技术框架：CITE算法的核心流程包括：首先定义目标答案的众数假设，利用交集-并集检验（Intersection-union testing）处理多类别分布；其次，通过E-过程对每个候选答案进行序贯检验；最后，根据累积的E-统计量动态决定是否接受目标答案为唯一众数，并支持在任意时刻终止采样。

关键创新：最重要的创新在于将E-过程与交集-并集检验结合，实现了对数据依赖停止规则的鲁棒性。与传统固定样本量检验不同，该方法允许模型在采样过程中根据置信度实时停止，且理论上证明了其停止时间速率与答案类别总数无关，具有极高的扩展性。

关键设计：算法采用了基于E-值的序贯决策机制，通过构建特定的鞅序列来控制Type-I错误。在置信加权投票（Confidence-weighted voting）的扩展中，算法利用模型输出的概率信息进一步优化了认证效率，确保在长尾分布下仍能保持统计功效。

📊 实验亮点

实验结果显示，CITE算法在多种LLM自洽性任务中实现了预设的错误率控制（如控制在5%以内）。在长尾分布的模拟实验中，CITE相比传统方法在认证效率上提升显著，且在答案空间未知的情况下，依然保持了极高的认证准确度，验证了其在复杂推理任务中的实用价值。

🎯 应用场景

该研究适用于对大模型输出可靠性要求极高的场景，如医疗诊断、法律咨询及自动化代码生成。通过提供统计学意义上的“众数认证”，系统能够自动判断模型是否已对某一答案达成足够共识，从而在保证输出质量的同时，通过动态停止采样显著降低计算成本。

📄 摘要（原文）

Large language models often improve reasoning by sampling multiple outputs and aggregating their final answers, but precise and efficient control of error levels remains a challenging task. In particular, deciding when to stop sampling remains difficult when the stopping rule is data-dependent and the set of possible answers is not known in advance. We study anytime-valid certification of a prespecified target answer as the unique mode of the model's response distribution, a guarantee distinct from answer correctness. We propose the Certification by Intersection-union Testing with E-processes (CITE) algorithm, which provably controls false certification at any prescribed level under arbitrary data-driven stopping, without requiring prior knowledge of the answer category set. We also prove an category-set-size-free stopping-time rate, establish matching minimax lower bounds up to constants in the main regime, and extend the construction to confidence-weighted voting. Simulations and LLM self-consistency experiments show empirical error control and improved certification in diffuse-tail settings.

CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理