To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

作者: Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-09-18 (更新: 2025-05-07)

备注: Published at ICLR 2025

💡 一句话要点

研究表明思维链主要提升数学和符号推理能力，其他任务收益有限

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链 大型语言模型 推理能力 数学推理 符号推理 提示工程 元分析

📋 核心要点

现有方法依赖思维链提示激发LLM推理能力，但其适用范围尚不明确，存在过度使用的问题。
通过大规模实验分析，揭示思维链主要在数学和逻辑推理任务中有效，其他任务增益有限。
实验表明，CoT在符号执行方面有提升，但不如直接使用符号求解器，提示CoT可选择性使用。

📝 摘要（中文）

思维链（CoT）提示已成为激发大型语言模型（LLM）推理能力的常用方法。但这种额外的“思考”对于哪些类型的任务真正有帮助？为了分析这一点，我们进行了一项定量元分析，涵盖了100多篇使用CoT的论文，并对14个模型在20个数据集上进行了评估。结果表明，CoT主要在涉及数学或逻辑的任务上表现出强大的性能优势，而在其他类型的任务上的收益则小得多。在MMLU上，直接生成答案而不使用CoT与使用CoT的准确率几乎相同，除非问题或模型的响应包含等号，表明存在符号运算和推理。基于这一发现，我们通过分离规划和执行，并与工具增强的LLM进行比较，分析了CoT在这些问题上的行为。CoT的大部分收益来自于改进符号执行，但其性能不如使用符号求解器。我们的结果表明，CoT可以有选择地应用，在保持性能的同时节省推理成本。此外，它们表明需要超越基于提示的CoT，转向新的范式，以更好地利用LLM应用程序中的中间计算。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）通常采用思维链（Chain-of-Thought, CoT）提示来增强其推理能力。然而，CoT并非在所有任务上都有效，盲目使用会增加计算成本。因此，需要明确CoT的适用范围，确定哪些任务能真正受益于CoT，哪些任务则不然。现有研究缺乏对CoT效果的系统性分析，难以指导CoT的实际应用。

核心思路：本研究的核心思路是通过大规模的实验分析，量化CoT在不同类型任务上的性能提升。通过对比使用CoT和不使用CoT的LLM在各种数据集上的表现，揭示CoT的优势和局限性。特别关注数学和符号推理任务，分析CoT在这些任务上的具体作用机制。

技术框架：本研究采用元分析和实验评估相结合的方法。首先，对100多篇使用CoT的论文进行定量元分析，总结CoT的应用情况和性能表现。然后，在20个数据集上，对14个不同的LLM进行实验评估，对比使用CoT和不使用CoT的性能差异。为了深入分析CoT在数学和符号推理任务上的作用，将CoT过程分解为规划和执行两个阶段，并与工具增强的LLM进行比较。

关键创新：本研究的关键创新在于对CoT的适用范围进行了系统性的量化分析，揭示了CoT主要在数学和符号推理任务上有效。此外，通过将CoT过程分解为规划和执行两个阶段，深入分析了CoT在符号执行方面的作用。研究结果表明，CoT在符号执行方面的性能不如直接使用符号求解器，这为未来的研究方向提供了新的思路。

关键设计：研究中使用了多种数据集，涵盖了不同类型的任务，包括数学、逻辑、常识推理等。实验中对比了不同大小的LLM，以评估CoT对模型规模的依赖性。在分析CoT在数学和符号推理任务上的作用时，使用了MMLU数据集，并特别关注包含等号的问题，因为等号通常表示符号运算和推理。此外，还使用了工具增强的LLM，例如使用Python解释器进行符号计算，以对比CoT和工具使用的性能差异。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，CoT主要在数学和逻辑任务上表现出显著的性能提升，而在其他类型的任务上的收益则相对较小。在MMLU数据集上，直接生成答案而不使用CoT与使用CoT的准确率几乎相同，除非问题或模型的响应包含等号。CoT在符号执行方面的性能不如直接使用符号求解器。

🎯 应用场景

该研究成果可用于指导LLM的实际应用，帮助开发者根据任务类型选择合适的提示策略，避免过度使用CoT带来的计算成本。此外，该研究还为未来的研究方向提供了新的思路，例如开发更有效的符号推理方法，或设计更通用的推理框架。

📄 摘要（原文）

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.