CAPS: Cascaded Adaptive Pairwise Selection for Efficient Parallel Reasoning

📄 arXiv: 2605.15513v1 📥 PDF

作者: Fangzhou Lin, Shuo Xing, Peiran Li, Siyuan Yang, Qianwen Ge, Kazunori Yamada, Ziming Zhang, Haichong Zhang, Zhengzhong Tu

分类: cs.AI

发布日期: 2026-05-15

备注: 31 pages, 2 figures, 18 tables


💡 一句话要点

提出CAPS:级联自适应配对选择,用于高效并行推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 并行推理 配对验证 自适应选择 大型语言模型 代码生成

📋 核心要点

  1. 现有并行推理方法中,配对自验证计算成本高昂,对所有候选解进行无差别比较,效率低下。
  2. CAPS框架通过证据轴和分布轴自适应地分配验证器计算资源,实现更高效的配对验证。
  3. 实验表明,CAPS在多个推理基准测试中优于现有配对验证方法,且显著降低了计算成本。

📝 摘要(中文)

并行推理是一种有效的大型语言模型测试时扩展方法,其中生成器采样多个候选解决方案,聚合器选择最佳方案。配对自验证已成为最强大的聚合原语。然而,配对验证成本高昂:每次判断都需要完整读取两个解决方案,且现有方法对每个问题执行数十次此类判断,无论比较是否有用。我们引入CAPS(级联自适应配对选择),这是一个仅用于推理的框架,它沿两个正交轴非均匀地分配验证器计算资源:证据轴自适应地调整判断器看到每个候选方案的多少,分布轴自适应地调整比较在池中的分布。CAPS将其实例化为一个具有可选救援子程序的四阶段级联,并允许封闭形式的验证器-token成本,其中每个候选方案的边际成本相对于均匀的全证据计划大致减半。在四个自验证模型(Qwen3-14B、GPT-OSS-20B、Qwen3-4B-Instruct/Thinking)和五个涵盖代码(LiveCodeBench-v5/v6、CodeContests)和数学(AIME 2025、HMMT 2025)的推理基准测试中,CAPS在20个套件中的14个上优于领先的配对验证器,同时在代码上使用其验证器-token预算的25.4%,并且在所有20个套件上优于逐点自验证。这些权衡套件允许根据验证器在部分证据与完整证据下的准确性进行可解释的诊断,从而为级联适用性提供具体的预部署检查。

🔬 方法详解

问题定义:现有并行推理方法,特别是基于配对自验证的方法,存在计算冗余问题。验证器需要读取完整的候选解,并且对所有候选解进行无差别比较,导致计算资源浪费,尤其是在比较信息量较低的情况下。

核心思路:CAPS的核心思路是自适应地分配验证器的计算资源,避免对所有候选解进行全量、无差别的比较。通过证据轴和分布轴的自适应调整,使得验证器能够根据候选解的质量和比较的必要性,动态地调整验证过程,从而提高效率。

技术框架:CAPS采用四阶段级联结构,并包含一个可选的救援子程序。每个阶段逐步增加验证器所看到的证据量,并根据已有的验证结果调整后续比较的分布。具体流程包括: 1. 初始筛选:使用少量证据快速排除明显较差的候选解。 2. 逐步验证:逐步增加证据量,进行更精细的比较。 3. 动态分配:根据验证结果,动态调整比较的分布,集中资源验证更有希望的候选解。 4. 最终选择:选择最佳候选解。 5. 救援子程序(可选):在必要时,对某些候选解进行更深入的验证。

关键创新:CAPS的关键创新在于其自适应的配对选择机制。与传统的配对验证方法相比,CAPS能够根据候选解的质量和比较的必要性,动态地调整验证过程,从而显著降低计算成本。此外,CAPS还提供了一种可解释的诊断方法,用于评估级联结构的适用性。

关键设计:CAPS的关键设计包括: 1. 证据轴自适应:验证器根据候选解的质量,逐步增加所看到的证据量。 2. 分布轴自适应:验证器根据已有的验证结果,动态调整比较的分布,集中资源验证更有希望的候选解。 3. 四阶段级联结构:通过多个阶段的逐步验证,实现更高效的筛选和比较。 4. 可解释的诊断方法:评估验证器在部分证据与完整证据下的准确性,从而评估级联结构的适用性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,CAPS在多个推理基准测试中优于领先的配对验证器,包括LiveCodeBench-v5/v6、CodeContests、AIME 2025和HMMT 2025。在代码生成任务中,CAPS仅使用配对验证器token预算的25.4%,即可达到甚至超过现有方法的性能。此外,CAPS在所有测试中均优于逐点自验证方法,证明了其在并行推理中的有效性。

🎯 应用场景

CAPS框架可应用于各种需要并行推理的场景,例如代码生成、数学问题求解、文本摘要等。通过降低验证器的计算成本,CAPS能够提高并行推理的效率,使得大型语言模型能够在资源有限的环境下更好地执行复杂任务。该研究对于提升AI系统的推理能力和降低部署成本具有重要意义。

📄 摘要(原文)

Parallel reasoning, where a generator samples many candidate solutions and an aggregator selects the best, is one of the most effective forms of test-time scaling in large language models, and pairwise self-verification has become its strongest aggregation primitive. Yet pairwise verification carries a heavy cost: each judgment reads two complete solutions in full, and existing methods perform tens of such judgments per problem regardless of whether the comparison is informative. We introduce CAPS (Cascaded Adaptive Pairwise Selection), an inference-only framework that allocates verifier compute non-uniformly along two orthogonal axes: an evidence axis that adapts how much of each candidate the judge sees, and a distribution axis that adapts how comparisons are spread across the pool. CAPS instantiates these into a four-stage cascade with an optional rescue subroutine, and admits a closed-form verifier-token cost in which the per-candidate marginal cost is roughly halved relative to uniform full-evidence schedules. On four self-verifying models (Qwen3-14B, GPT-OSS-20B, Qwen3-4B-Instruct/Thinking) and five reasoning benchmarks spanning code (LiveCodeBench-v5/v6, CodeContests) and math (AIME 2025, HMMT 2025), CAPS outperforms the leading pairwise verifier on 14 of 20 suites while using 25.4% of its verifier-token budget on code, and outperforms pointwise self-verification on all 20. The trade-off suites admit an interpretable diagnostic in terms of the verifier's accuracy at partial versus full evidence, providing a concrete pre-deployment check for cascade suitability.