To Think or Not to Think: The Hidden Cost of Meta-Training with Excessive CoT Examples

作者: Vignesh Kothapalli, Ata Fatahibaarzi, Hamed Firooz, Maziar Sanjabi

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-04

备注: 26 pages, 45 figures, 3 tables

💡 一句话要点

CoT-Recipe：通过调节CoT样本比例提升元训练中LLM的推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链 元学习 上下文学习 大型语言模型 推理能力

📋 核心要点

现有方法在预训练知识不足时，CoT提示的少样本学习在新任务上表现不佳，过度使用CoT示例甚至会降低性能。
论文提出CoT-Recipe方法，通过调节元训练中CoT和非CoT示例的比例，优化模型在新任务上的推理能力。
实验表明，CoT-Recipe能显著提升Transformer和Qwen2.5系列模型在抽象和符号推理任务上的准确率，最高提升达300%和130%。

📝 摘要（中文）

大型语言模型（LLM）结合思维链（CoT）提示和少样本上下文学习（ICL）展现了强大的推理能力。然而，当预训练知识不足时，带有CoT示例的ICL在新任务上效果不佳。本文在CoT-ICL Lab框架下研究了这个问题，并提出了元训练技术以学习新的抽象推理任务。虽然CoT示例有助于推理，但我们发现，在CoT监督有限的情况下，过度包含CoT示例会降低性能。为了缓解这种行为，我们提出了CoT-Recipe，一种用于调节元训练序列中CoT和非CoT示例混合的正式方法。我们证明，即使在上下文中没有CoT示例的情况下，通过CoT-Recipe进行仔细调节也可以将Transformer在新任务上的准确率提高高达300%。我们通过将这些技术应用于预训练的LLM（Qwen2.5系列）进行符号推理任务，并观察到高达130%的准确率提升，从而证实了这些技术的广泛有效性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在预训练知识不足的情况下，使用思维链（CoT）提示进行少样本上下文学习（ICL）时，在新任务上表现不佳的问题。现有方法过度依赖CoT示例，导致在CoT监督有限时性能下降，无法有效泛化到新的推理任务。

核心思路：论文的核心思路是通过调节元训练过程中CoT示例和非CoT示例的比例，来优化模型对新任务的适应能力。作者认为，过度使用CoT示例会使模型过度拟合CoT的特定模式，从而降低其泛化能力。通过合理混合CoT和非CoT示例，可以使模型更好地学习到通用的推理策略。

技术框架：论文提出了CoT-Recipe方法，该方法的核心在于设计一个策略来动态调整元训练序列中CoT示例和非CoT示例的比例。具体来说，CoT-Recipe可以被视为一个超参数优化问题，目标是找到最佳的CoT示例比例，使得模型在验证集上的性能最大化。该方法可以与现有的元训练框架相结合，无需修改模型的架构或训练流程。

关键创新：论文的关键创新在于发现了过度使用CoT示例的负面影响，并提出了CoT-Recipe方法来解决这个问题。与现有方法相比，CoT-Recipe不是简单地增加CoT示例的数量，而是通过精细地调节CoT示例的比例，来提高模型的泛化能力。这种方法更加灵活和高效，可以适应不同的任务和数据集。

关键设计：CoT-Recipe的关键设计在于如何确定最佳的CoT示例比例。作者采用了一种基于验证集的超参数搜索策略，通过在不同的CoT示例比例下训练模型，并评估其在验证集上的性能，来找到最佳的比例。此外，作者还探索了不同的CoT示例选择策略，例如随机选择和基于难度的选择，以进一步提高模型的性能。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，CoT-Recipe方法在抽象推理任务上可以将Transformer的准确率提高高达300%，在符号推理任务上可以将Qwen2.5系列模型的准确率提高高达130%。这些结果表明，CoT-Recipe方法能够显著提升LLM在新任务上的推理能力，并且具有广泛的适用性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的场景，例如智能客服、自动问答系统、代码生成、科学研究等。通过优化CoT示例的使用，可以提高LLM在这些场景中的性能和可靠性，降低对大量标注数据的依赖，并加速LLM在新领域的应用。

📄 摘要（原文）

Chain-of-thought (CoT) prompting combined with few-shot in-context learning (ICL) has unlocked significant reasoning capabilities in large language models (LLMs). However, ICL with CoT examples is ineffective on novel tasks when the pre-training knowledge is insufficient. We study this problem in a controlled setting using the CoT-ICL Lab framework, and propose meta-training techniques to learn novel abstract reasoning tasks in-context. Although CoT examples facilitate reasoning, we noticed that their excessive inclusion during meta-training degrades performance when CoT supervision is limited. To mitigate such behavior, we propose CoT-Recipe, a formal approach to modulate the mix of CoT and non-CoT examples in meta-training sequences. We demonstrate that careful modulation via CoT-Recipe can increase the accuracy of transformers on novel tasks by up to 300% even when there are no CoT examples available in-context. We confirm the broader effectiveness of these techniques by applying them to pretrained LLMs (Qwen2.5 series) for symbolic reasoning tasks and observing gains of up to 130% in accuracy.