Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

📄 arXiv: 2605.27030v1 📥 PDF

作者: Xinglin Wang, Hao Lin, Shaoxiong Feng, Peiwen Yuan, Yiwei Li, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li

分类: cs.CL

发布日期: 2026-05-26

备注: Preprint


💡 一句话要点

提出协同并行思考(CPT)框架,提升大语言模型测试时推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 测试时扩展 并行推理 信息共享 协同计算

📋 核心要点

  1. 现有并行测试时扩展方法信息隔离,导致分支重复探索,效率低下。
  2. CPT框架通过共享中间信息,使各分支能够重用彼此的发现,减少冗余计算。
  3. 实验表明,CPT在精度和延迟之间取得了更好的平衡,优于现有基线方法。

📝 摘要(中文)

测试时扩展(TTS)通过分配额外的推理计算来增强大型语言模型的推理能力,以探索解空间。然而,现有的并行TTS方法通常在搜索过程中保持分支隔离:中间发现仍然是分支私有的,无法及时指导其他分支。这种信息隔离导致大量的冗余探索,因为分支会重复发现已经在其他地方找到的信息,并且需要更多的搜索步骤来收集达到正确答案所需的完整决策信息。为了弥合这一差距,我们提出了协同并行思考(CPT),这是一个无需训练的推理框架,它能够在并行分支之间实现搜索时信息共享。CPT从正在进行的分支中提取紧凑的中间信息,维护一个去重的查询级信息池,并通过输入上下文广播池条目,允许后续搜索步骤中的每个分支重用其他分支的发现,而不是重新发现相同的信息。在HMMT和AIME基准上的实验表明,CPT在rollout预算和模型规模上建立了比强基线更强的精度-延迟帕累托前沿,突出了搜索时协作是有效并行TTS的方向。

🔬 方法详解

问题定义:论文旨在解决现有并行测试时扩展(TTS)方法中,各分支在搜索解空间时信息隔离的问题。这种隔离导致各分支重复探索已发现的信息,造成计算资源的浪费,降低了推理效率。现有方法的痛点在于无法有效利用并行计算的优势,各个分支如同独立个体,无法互相借鉴学习。

核心思路:论文的核心思路是打破分支之间的信息壁垒,实现搜索过程中的信息共享与协作。通过让各个分支共享中间结果,避免重复探索,从而提高整体的推理效率。这种协同的思想类似于人类的集体智慧,通过汇集多个个体的思考成果,更快地找到问题的答案。

技术框架:CPT框架包含以下几个主要模块:1) 信息提取模块:从各个分支的中间状态提取紧凑的关键信息。2) 信息池维护模块:维护一个去重的查询级信息池,存储提取出的信息。3) 信息广播模块:通过输入上下文将信息池中的信息广播给各个分支。4) 推理模块:各个分支利用接收到的信息进行下一步推理。整个流程是循环迭代的,每个分支在每一步都可以利用其他分支的发现。

关键创新:CPT最重要的技术创新点在于实现了并行分支之间的信息共享。与现有方法中各分支独立探索不同,CPT通过信息池和广播机制,将各个分支的探索结果汇集起来,供其他分支参考。这种信息共享机制能够显著减少冗余计算,提高推理效率。此外,CPT是一个无需训练的框架,可以直接应用于现有的语言模型。

关键设计:CPT的关键设计包括:1) 信息提取方式:如何从中间状态提取出既能代表分支思考过程,又足够紧凑的信息,以避免信息爆炸。2) 信息池的去重策略:如何有效地去除信息池中的冗余信息,保证信息质量。3) 信息广播方式:如何将信息池中的信息有效地融入到输入上下文中,让各个分支能够充分利用这些信息。论文中可能使用了特定的prompt工程技巧来实现信息的有效广播。

📊 实验亮点

CPT在HMMT和AIME基准测试中表现出色,在不同的rollout预算和模型规模下,均优于现有基线方法,实现了更强的精度-延迟帕累托前沿。这表明CPT能够以更少的计算资源达到更高的精度,或者在相同的精度下降低延迟,验证了搜索时协作的有效性。

🎯 应用场景

CPT框架可应用于需要高效率和高精度的各种推理任务,例如数学问题求解、代码生成、知识图谱推理等。该方法能够提升大语言模型在资源受限环境下的推理能力,具有广泛的应用前景。未来,可以将CPT与其他推理增强技术相结合,进一步提升推理性能。

📄 摘要(原文)

Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose \textbf{Collaborative Parallel Thinking (CPT)}, a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.