Fractured Chain-of-Thought Reasoning

📄 arXiv: 2505.12992v3 📥 PDF

作者: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong

分类: cs.LG, cs.AI, cs.CL, stat.ML

发布日期: 2025-05-19 (更新: 2025-06-18)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Fractured Sampling,通过截断CoT推理链提升大语言模型推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 链式思考 大语言模型 推理优化 截断推理 Fractured Sampling

📋 核心要点

  1. 现有CoT推理方法虽然提高了准确率,但token成本高昂,限制了其在延迟敏感场景中的应用。
  2. Fractured Sampling通过截断CoT推理链,在完整CoT和直接生成答案之间插值,优化计算资源分配。
  3. 实验表明,Fractured Sampling在多个推理基准上实现了更高的准确率-成本权衡,提升了推理效率。

📝 摘要(中文)

本文提出了一种名为Fractured Sampling的推理时优化策略,旨在提高大语言模型(LLMs)的推理效率。该方法通过在完整CoT推理和仅输出答案之间进行插值,沿着三个正交轴进行优化:(1)推理轨迹的数量,(2)每个轨迹的最终解的数量,以及(3)推理轨迹被截断的深度。实验结果表明,在五个不同的推理基准和多个模型规模上,Fractured Sampling始终能够实现卓越的准确率-成本权衡,在Pass@k与token预算之间产生陡峭的对数线性缩放增益。通过分析,本文揭示了如何在这些维度上分配计算资源以最大化性能,为更高效和可扩展的LLM推理铺平了道路。

🔬 方法详解

问题定义:现有Chain-of-Thought (CoT) 推理方法,特别是Long CoT,虽然能够通过生成丰富的中间推理过程来提高大型语言模型(LLMs)的推理准确性,但其高昂的token成本严重阻碍了其在对延迟敏感的应用场景中的部署。因此,如何降低CoT推理的计算成本,同时保持甚至提升推理准确率,是本文要解决的核心问题。

核心思路:本文的核心思路是,并非所有的CoT推理步骤都对最终答案有同等贡献。通过截断CoT推理链,即在推理完成前停止推理并直接生成最终答案,可以在显著减少token数量的同时,保持甚至提高推理准确率。Fractured Sampling进一步将这一思路推广,通过在完整CoT推理和仅输出答案之间进行插值,灵活地控制推理的深度和广度。

技术框架:Fractured Sampling是一个统一的推理时策略,它沿着三个正交轴进行优化:(1) 推理轨迹的数量,即生成多少条不同的推理路径;(2) 每个轨迹的最终解的数量,即每条推理路径生成多少个候选答案;(3) 推理轨迹被截断的深度,即推理到哪一步停止。通过调整这三个参数,可以在不同的计算预算下,找到最优的推理策略。整体流程包括:首先,根据设定的参数,生成多个被截断的CoT推理轨迹;然后,对每个轨迹生成多个候选答案;最后,选择最优的答案作为最终结果。

关键创新:Fractured Sampling的关键创新在于它提供了一种灵活的、可配置的推理框架,允许在推理过程中动态地调整计算资源的分配。与传统的CoT方法相比,Fractured Sampling不再局限于完整的推理链,而是允许在推理过程中的任何阶段停止并生成答案。这种灵活性使得Fractured Sampling能够更好地适应不同的计算预算和推理任务。

关键设计:Fractured Sampling的关键设计在于三个参数的设置:推理轨迹的数量、每个轨迹的最终解的数量和推理轨迹被截断的深度。这些参数的设置需要根据具体的任务和计算预算进行调整。论文通过实验分析了不同参数设置对性能的影响,并提出了指导性的建议。此外,如何选择最优的答案也是一个关键的设计问题。论文中可能采用了某种选择策略,例如基于语言模型置信度的选择方法,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Fractured Sampling在五个不同的推理基准和多个模型规模上,始终能够实现卓越的准确率-成本权衡,在Pass@k与token预算之间产生陡峭的对数线性缩放增益。这意味着在相同的计算资源下,Fractured Sampling能够显著提高推理准确率,或者在保证相同准确率的前提下,显著降低计算成本。具体的性能提升数据未知。

🎯 应用场景

Fractured Sampling可应用于各种需要高效推理的大语言模型应用场景,如在线问答、对话系统、信息检索等。通过降低推理成本,可以使得LLMs能够更广泛地部署在资源受限的设备上,并提升用户体验。该方法还有助于探索更高效的推理策略,推动LLM推理技术的发展。

📄 摘要(原文)

Inference-time scaling techniques have significantly bolstered the reasoning capabilities of large language models (LLMs) by harnessing additional computational effort at inference without retraining. Similarly, Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy by generating rich intermediate reasoning trajectories, but these approaches incur substantial token costs that impede their deployment in latency-sensitive settings. In this work, we first show that truncated CoT, which stops reasoning before completion and directly generates the final answer, often matches full CoT sampling while using dramatically fewer tokens. Building on this insight, we introduce Fractured Sampling, a unified inference-time strategy that interpolates between full CoT and solution-only sampling along three orthogonal axes: (1) the number of reasoning trajectories, (2) the number of final solutions per trajectory, and (3) the depth at which reasoning traces are truncated. Through extensive experiments on five diverse reasoning benchmarks and several model scales, we demonstrate that Fractured Sampling consistently achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling gains in Pass@k versus token budget. Our analysis reveals how to allocate computation across these dimensions to maximize performance, paving the way for more efficient and scalable LLM reasoning. Code is available at https://github.com/BaohaoLiao/frac-cot.