CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning

📄 arXiv: 2603.28135v1 📥 PDF

作者: Siyuan Ma, Bo Gao, Zikai Xiao, Hailong Wang, Xinlei Yu, Rui Qian, Jiayu Qian, Luqi Gong, Yang Liu

分类: cs.AI

发布日期: 2026-03-30


💡 一句话要点

CoT2-Meta:面向测试时推理的预算型元认知控制框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 元认知控制 测试时推理 思维链 树搜索 在线学习

📋 核心要点

  1. 现有测试时推理方法缺乏对推理过程的显式控制,如何时扩展、如何剪枝、怎样修复以及何时停止。
  2. CoT2-Meta通过结合思维链生成与元级别控制,实现对部分推理轨迹的有效管理和计算资源分配。
  3. 实验表明,CoT2-Meta在多个基准测试中显著优于现有方法,尤其是在数学和常识推理任务上。

📝 摘要(中文)

本文提出CoT2-Meta,一个无需训练的元认知推理框架,它将对象级别的思维链生成与元级别的部分推理轨迹控制相结合。该框架集成了四个组件:策略条件下的思想生成、树状结构的搜索、用于步级推理评估的在线过程预言机,以及通过扩展、剪枝、修复、停止和回退决策来分配计算资源的元控制器。在匹配的推理预算下,CoT2-Meta始终优于强大的单路径、基于采样的和基于搜索的基线,包括ReST-MCTS。在默认骨干网络上,它在MATH上达到92.8 EM,在GPQA上达到90.4的准确率,在GSM8K上达到98.65 EM,在BBEH上达到75.8的准确率,在MMMU-Pro上达到85.6的准确率,在HLE上达到48.8的准确率,相对于最强的非CoT2-Meta基线分别提升了+3.6、+5.2、+1.15、+2.0、+4.3和+4.3个百分点。此外,该框架在涵盖知识和问答、多跳推理、编码和分布外评估的更广泛的15个基准测试套件中仍然有效。其他分析表明,该框架具有更好的计算扩展性、改进的校准、更强的选择性预测、有针对性的修复行为以及跨骨干网络家族的一致增益。这些结果表明,显式的元认知控制是可靠且计算高效的测试时推理系统的实用设计原则。

🔬 方法详解

问题定义:现有测试时推理方法,如基于采样或搜索的方法,通常缺乏对推理过程的精细控制。它们难以根据中间结果动态调整推理策略,导致计算资源浪费或推理质量下降。因此,如何有效地控制推理过程,在有限的计算预算下获得最佳性能,是一个关键问题。

核心思路:CoT2-Meta的核心思路是引入元认知控制,即让模型能够“思考自己的思考过程”。通过在线评估推理步骤的质量,并根据评估结果动态调整推理策略(扩展、剪枝、修复、停止),从而实现对推理过程的精细化管理和计算资源的有效分配。

技术框架:CoT2-Meta框架包含四个主要组件:1) 策略条件下的思想生成:根据当前推理状态生成候选的思维链;2) 树状结构的搜索:利用树搜索算法探索不同的推理路径;3) 在线过程预言机:评估每个推理步骤的质量,为元控制器提供反馈;4) 元控制器:根据预言机的反馈,决定下一步的推理动作,如扩展、剪枝、修复、停止或回退。整个框架以迭代的方式运行,直到达到计算预算或找到满意的答案。

关键创新:CoT2-Meta的关键创新在于引入了元认知控制的概念,并将其应用于测试时推理。与传统的单路径或盲目搜索方法不同,CoT2-Meta能够根据中间结果动态调整推理策略,从而更有效地利用计算资源,提高推理质量。此外,在线过程预言机和元控制器的设计,使得框架具有更强的适应性和鲁棒性。

关键设计:策略条件下的思想生成模块可以使用不同的语言模型作为骨干网络,并根据当前推理状态(例如,已生成的思维链)调整生成策略。在线过程预言机可以使用不同的指标来评估推理步骤的质量,例如,一致性、流畅性或与问题的相关性。元控制器可以使用强化学习或其他优化算法来学习最佳的推理策略。具体的参数设置和损失函数取决于具体的应用场景和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoT2-Meta在多个基准测试中取得了显著的性能提升。例如,在MATH数据集上,CoT2-Meta达到了92.8 EM,比最强的非CoT2-Meta基线提高了3.6个百分点。在GPQA数据集上,CoT2-Meta达到了90.4的准确率,比最强的非CoT2-Meta基线提高了5.2个百分点。此外,实验还表明,CoT2-Meta具有更好的计算扩展性、改进的校准和更强的选择性预测能力。

🎯 应用场景

CoT2-Meta框架具有广泛的应用前景,可应用于各种需要复杂推理的任务,如数学问题求解、常识推理、代码生成和问答系统。该框架能够提高推理的可靠性和效率,尤其是在计算资源有限的情况下。未来,该框架可以进一步扩展到其他领域,如机器人控制和决策制定。

📄 摘要(原文)

Recent test-time reasoning methods improve performance by generating more candidate chains or searching over larger reasoning trees, but they typically lack explicit control over when to expand, what to prune, how to repair, and when to abstain. We introduce CoT2-Meta, a training-free metacognitive reasoning framework that combines object-level chain-of-thought generation with meta-level control over partial reasoning trajectories. The framework integrates four components: strategy-conditioned thought generation, tree-structured search, an online process oracle for step-level reasoning evaluation, and a meta-controller that allocates computation through expansion, pruning, repair, stopping, and fallback decisions. Under matched inference budgets, CoT2-Meta consistently outperforms strong single-path, sampling-based, and search-based baselines, including ReST-MCTS. On the default backbone, it achieves 92.8 EM on MATH, 90.4 accuracy on GPQA, 98.65 EM on GSM8K, 75.8 accuracy on BBEH, 85.6 accuracy on MMMU-Pro, and 48.8 accuracy on HLE, with gains over the strongest non-CoT2-Meta baseline of +3.6, +5.2, +1.15, +2.0, +4.3, and +4.3 points, respectively. Beyond these core results, the framework remains effective across a broader 15-benchmark suite spanning knowledge and QA, multi-hop reasoning, coding, and out-of-distribution evaluation. Additional analyses show better compute scaling, improved calibration, stronger selective prediction, targeted repair behavior, and consistent gains across backbone families. These results suggest that explicit metacognitive control is a practical design principle for reliable and compute-efficient test-time reasoning systems.