Reliable Chain-of-Thought via Prefix Consistency
作者: Naoto Iwase, Yuki Ichihara, Mohammad Atif Quamar, Junpei Komiyama
分类: stat.ML, cs.CL, cs.LG
发布日期: 2026-05-08
备注: See our project page at https://naoto-iwase.github.io/prefix-consistency-page
🔗 代码/项目: GITHUB
💡 一句话要点
提出前缀一致性(Prefix Consistency)方法,通过重采样验证提升思维链推理的可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链推理 自洽性 大语言模型 推理效率 测试时计算 可靠性评估
📋 核心要点
- 现有自洽性方法依赖大量采样,计算成本高昂且缺乏对单条推理路径可靠性的有效评估机制。
- 论文提出前缀一致性指标,通过截断并重采样思维链,利用正确路径的高重现性作为置信度权重。
- 实验表明该方法在保持准确率的同时显著降低了推理Token消耗,在多个基准测试中优于传统多数投票。
📝 摘要(中文)
大型语言模型通常通过采样多个思维链(CoT)轨迹并进行多数投票(MV)来提升推理任务的准确性,即自洽性(Self-Consistency)方法。研究发现,当截断思维链并重新生成剩余部分时,得出正确答案的轨迹比错误轨迹更倾向于重现其原始答案。本文利用这一现象提出“前缀一致性”作为可靠性信号,通过计算候选答案在重生成过程中的重现频率来加权投票。该方法无需访问Token对数概率或使用自我评估提示词。在五个推理模型和四个数学科学基准测试中,前缀一致性在多数设置下表现为最佳正确性预测指标,且在达到标准多数投票准确率水平时,计算开销最高可减少21倍(中位数4.6倍)。
🔬 方法详解
问题定义:现有思维链推理主要依赖多数投票(Self-Consistency),其痛点在于需要采样大量路径才能获得稳定结果,导致推理阶段计算资源消耗巨大,且无法区分不同推理路径的内在可靠性。
核心思路:论文观察到“正确答案具有更强的路径稳定性”。通过将思维链截断并强制模型从中间点重新生成,正确答案的推理轨迹在重生成中表现出更高的重现概率,以此作为衡量推理路径质量的可靠性信号。
技术框架:该方法首先生成初始思维链,随后在特定位置进行截断,并基于相同前缀进行多次重采样生成。通过统计各候选答案在重采样中的出现频率,计算加权投票分数,从而筛选出最可信的推理结果。
关键创新:引入“前缀一致性”作为一种无需模型内部概率(Log-probs)或额外提示词(Self-rating)的黑盒评估指标,实现了对推理路径质量的量化,有效解决了传统投票机制中对所有路径“一视同仁”的低效问题。
关键设计:该方法不依赖模型参数调整,仅在推理阶段(Test-time)执行。通过动态调整重采样次数与截断位置,在保证推理准确率的前提下,大幅减少了生成Token的总量,实现了推理效率与准确性的最优平衡。
🖼️ 关键图片
📊 实验亮点
实验覆盖五个主流推理模型及四个数学科学基准,结果显示前缀一致性在多数场景下成为最强的正确性预测指标。在达到标准多数投票(MV)准确率水平时,该方法最高可减少21倍的Token消耗,中位数提升效率达4.6倍,显著优于传统的自洽性采样策略。
🎯 应用场景
该方法适用于对推理准确性要求极高且计算资源受限的场景,如自动化数学证明、科学计算、代码生成及复杂逻辑决策系统。通过降低推理成本,它能有效推动大模型在边缘设备或实时交互系统中的部署,并为提升模型推理的鲁棒性提供了一种无需额外训练的通用插件方案。
📄 摘要(原文)
Large Language Models often improve accuracy on reasoning tasks by sampling multiple Chain-of-Thought (CoT) traces and aggregating them with majority voting (MV), a test-time technique called self-consistency. When we truncate a CoT partway through and regenerate the remainder, we observe that traces with correct answers reproduce their original answer more often than traces with wrong answers. We use this difference as a reliability signal, prefix consistency, that weights each candidate answer by how often it reappears under regeneration. It requires no access to token log-probabilities or self-rating prompts. Across five reasoning models and four math and science benchmarks, prefix consistency is the best correctness predictor in most settings, and reweighting votes by it reaches Standard MV plateau accuracy at up to 21x fewer tokens (median 4.6x). Our code is available at https://github.com/naoto-iwase/prefix-consistency.