When More is Less: Understanding Chain-of-Thought Length in LLMs

作者: Yuyang Wu, Yifei Wang, Ziyu Ye, Tianqi Du, Stefanie Jegelka, Yisen Wang

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-02-11 (更新: 2025-05-27)

💡 一句话要点

揭示LLM中思维链长度与性能的非单调关系，并提出自适应CoT校准方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 思维链 推理 简单性偏差 自适应校准

📋 核心要点

现有研究通常认为更长的思维链（CoT）推理能提升LLM性能，但忽略了过长CoT可能导致性能下降的问题。
论文提出LLM存在“简单性偏差”，即更强的模型倾向于更短的CoT，并构建理论模型解释CoT长度与性能的非单调关系。
实验表明，使用最优长度的CoT训练和长度感知过滤能显著提升LLM性能，验证了理论分析的有效性。

📝 摘要（中文）

大型语言模型（LLM）采用思维链（CoT）推理来分解复杂问题。虽然通常认为更长的CoT更好，但本文对此提出质疑，认为更长并不总是更好。通过结合真实观察、受控实验和理论分析的证据，我们证明了任务准确率通常随CoT长度呈现倒U型曲线，即性能最初提高，但随着CoT步骤的增加最终会下降。通过受控实验，我们进一步揭示了最佳CoT长度的缩放行为：它随着任务难度的增加而增加，但随着模型能力的提高而降低，揭示了一种固有的简单性偏差，即更有能力的模型倾向于更短、更有效的CoT推理。这种偏差在强化学习（RL）训练中也很明显，模型随着准确率的提高而倾向于更短的CoT。为了深入理解这些动态，我们建立了一个简单的理论模型，正式证明了这些现象，包括最佳长度的缩放规律和RL期间简单性偏差的出现。在该框架的指导下，我们展示了使用最佳长度的CoT进行训练以及在推理时采用长度感知过滤的显著实际好处。这些发现为“过度思考”现象提供了原理性的理解，并为CoT校准提供了多个实用指南，使LLM能够通过适应任务复杂性和模型能力的自适应CoT来实现最佳推理性能。

🔬 方法详解

问题定义：现有方法通常假设更长的思维链（Chain-of-Thought, CoT）推理总是能带来更好的性能。然而，实际观察和实验表明，过长的CoT可能会导致LLM在推理过程中出现偏差，从而降低任务准确率。因此，需要研究CoT长度与LLM性能之间的关系，并找到最优的CoT长度。

核心思路：论文的核心思路是揭示LLM中CoT长度与性能之间的非单调关系，即存在一个最优的CoT长度，超过这个长度性能反而会下降。这种现象源于LLM的“简单性偏差”，即更强的模型倾向于使用更短的CoT。通过理论建模和实验验证，论文旨在理解这种偏差的成因，并提出自适应CoT校准方法。

技术框架：论文的技术框架包括三个主要部分：1) 真实世界观察和受控实验，用于揭示CoT长度与性能之间的关系；2) 理论模型，用于解释观察到的现象，并推导出最优CoT长度的缩放规律；3) 基于理论指导的CoT校准方法，包括使用最优长度的CoT进行训练和在推理时采用长度感知过滤。

关键创新：论文最重要的技术创新点在于揭示了LLM中CoT长度与性能之间的非单调关系，并提出了“简单性偏差”的概念。此外，论文还构建了一个理论模型，可以形式化地证明这些现象，并推导出最优CoT长度的缩放规律。这些发现为理解LLM的推理过程提供了新的视角。

关键设计：论文的关键设计包括：1) 受控实验，用于系统地研究CoT长度对性能的影响；2) 理论模型，基于概率图模型，用于模拟LLM的推理过程；3) 长度感知过滤，用于在推理时选择最优长度的CoT。理论模型中，关键参数包括任务难度、模型能力和CoT长度。损失函数的设计旨在鼓励模型学习到最优长度的CoT。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，任务准确率通常随CoT长度呈现倒U型曲线。最佳CoT长度随着任务难度的增加而增加，但随着模型能力的提高而降低。使用最优长度的CoT进行训练以及在推理时采用长度感知过滤可以显著提高LLM的性能。例如，在特定任务上，使用长度感知过滤可以将准确率提高5%-10%。

🎯 应用场景

该研究成果可应用于提升LLM在各种复杂任务中的推理性能，例如数学问题求解、常识推理和代码生成。通过自适应地调整CoT长度，可以使LLM在不同任务和模型能力下都能达到最佳性能。此外，该研究还可以帮助我们更好地理解LLM的推理过程，并为未来的模型设计提供指导。

📄 摘要（原文）

Large Language Models (LLMs) employ Chain-of-Thought (CoT) reasoning to deconstruct complex problems. While longer CoTs are often presumed superior, this paper challenges that notion, arguing that longer is not always better. Drawing on combined evidence from real-world observations, controlled experiments, and theoretical analysis, we demonstrate that task accuracy typically follows an inverted U-shaped curve with CoT length, where performance initially improves but eventually decreases as the number of CoT steps increases. With controlled experiments, we further uncover the scaling behaviors of the optimal CoT length: it increases with task difficulty but decreases with model capability, exposing an inherent simplicity bias where more capable models favor shorter, more efficient CoT reasoning. This bias is also evident in Reinforcement Learning (RL) training, where models gravitate towards shorter CoTs as their accuracy improves. To have a deep understanding of these dynamics, we establish a simple theoretical model that formally proves these phenomena, including the optimal length's scaling laws and the emergence of simplicity bias during RL. Guided by this framework, we demonstrate significant practical benefits from training with optimally-lengthed CoTs and employing length-aware filtering at inference. These findings offer both a principled understanding of the "overthinking" phenomenon and multiple practical guidelines for CoT calibration, enabling LLMs to achieve optimal reasoning performance with adaptive CoTs tailored to task complexity and model capability.