To Think or Not to Think: The Hidden Cost of Meta-Training with Excessive CoT Examples

📄 arXiv: 2512.05318v1 📥 PDF

作者: Vignesh Kothapalli, Ata Fatahibaarzi, Hamed Firooz, Maziar Sanjabi

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-04

备注: 26 pages, 45 figures, 3 tables


💡 一句话要点

CoT-Recipe:通过调节CoT样本比例提升元训练中LLM的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 元学习 上下文学习 大型语言模型 推理能力

📋 核心要点

  1. 现有方法在预训练知识不足时,CoT提示的少样本学习在新任务上表现不佳,过度使用CoT示例甚至会降低性能。
  2. 论文提出CoT-Recipe方法,通过调节元训练中CoT和非CoT示例的比例,优化模型在新任务上的推理能力。
  3. 实验表明,CoT-Recipe能显著提升Transformer和Qwen2.5系列模型在抽象和符号推理任务上的准确率,最高提升达300%和130%。

📝 摘要(中文)

大型语言模型(LLM)结合思维链(CoT)提示和少样本上下文学习(ICL)展现了强大的推理能力。然而,当预训练知识不足时,带有CoT示例的ICL在新任务上效果不佳。本文在CoT-ICL Lab框架下研究了这个问题,并提出了元训练技术以学习新的抽象推理任务。虽然CoT示例有助于推理,但我们发现,在CoT监督有限的情况下,过度包含CoT示例会降低性能。为了缓解这种行为,我们提出了CoT-Recipe,一种用于调节元训练序列中CoT和非CoT示例混合的正式方法。我们证明,即使在上下文中没有CoT示例的情况下,通过CoT-Recipe进行仔细调节也可以将Transformer在新任务上的准确率提高高达300%。我们通过将这些技术应用于预训练的LLM(Qwen2.5系列)进行符号推理任务,并观察到高达130%的准确率提升,从而证实了这些技术的广泛有效性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在预训练知识不足的情况下,使用思维链(CoT)提示进行少样本上下文学习(ICL)时,在新任务上表现不佳的问题。现有方法过度依赖CoT示例,导致在CoT监督有限时性能下降,无法有效泛化到新的推理任务。

核心思路:论文的核心思路是通过调节元训练过程中CoT示例和非CoT示例的比例,来优化模型对新任务的适应能力。作者认为,过度使用CoT示例会使模型过度拟合CoT的特定模式,从而降低其泛化能力。通过合理混合CoT和非CoT示例,可以使模型更好地学习到通用的推理策略。

技术框架:论文提出了CoT-Recipe方法,该方法的核心在于设计一个策略来动态调整元训练序列中CoT示例和非CoT示例的比例。具体来说,CoT-Recipe可以被视为一个超参数优化问题,目标是找到最佳的CoT示例比例,使得模型在验证集上的性能最大化。该方法可以与现有的元训练框架相结合,无需修改模型的架构或训练流程。

关键创新:论文的关键创新在于发现了过度使用CoT示例的负面影响,并提出了CoT-Recipe方法来解决这个问题。与现有方法相比,CoT-Recipe不是简单地增加CoT示例的数量,而是通过精细地调节CoT示例的比例,来提高模型的泛化能力。这种方法更加灵活和高效,可以适应不同的任务和数据集。

关键设计:CoT-Recipe的关键设计在于如何确定最佳的CoT示例比例。作者采用了一种基于验证集的超参数搜索策略,通过在不同的CoT示例比例下训练模型,并评估其在验证集上的性能,来找到最佳的比例。此外,作者还探索了不同的CoT示例选择策略,例如随机选择和基于难度的选择,以进一步提高模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoT-Recipe方法在抽象推理任务上可以将Transformer的准确率提高高达300%,在符号推理任务上可以将Qwen2.5系列模型的准确率提高高达130%。这些结果表明,CoT-Recipe方法能够显著提升LLM在新任务上的推理能力,并且具有广泛的适用性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的场景,例如智能客服、自动问答系统、代码生成、科学研究等。通过优化CoT示例的使用,可以提高LLM在这些场景中的性能和可靠性,降低对大量标注数据的依赖,并加速LLM在新领域的应用。

📄 摘要(原文)

Chain-of-thought (CoT) prompting combined with few-shot in-context learning (ICL) has unlocked significant reasoning capabilities in large language models (LLMs). However, ICL with CoT examples is ineffective on novel tasks when the pre-training knowledge is insufficient. We study this problem in a controlled setting using the CoT-ICL Lab framework, and propose meta-training techniques to learn novel abstract reasoning tasks in-context. Although CoT examples facilitate reasoning, we noticed that their excessive inclusion during meta-training degrades performance when CoT supervision is limited. To mitigate such behavior, we propose CoT-Recipe, a formal approach to modulate the mix of CoT and non-CoT examples in meta-training sequences. We demonstrate that careful modulation via CoT-Recipe can increase the accuracy of transformers on novel tasks by up to 300% even when there are no CoT examples available in-context. We confirm the broader effectiveness of these techniques by applying them to pretrained LLMs (Qwen2.5 series) for symbolic reasoning tasks and observing gains of up to 130% in accuracy.