Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

📄 arXiv: 2501.18585v2 📥 PDF

作者: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

分类: cs.CL

发布日期: 2025-01-30 (更新: 2025-02-18)

备注: 1. We have updated the results for DeepSeek-R1, and all of our original conclusions remain valid. 2. Our proposed Tip approach remains effective in Best-of-N scenarios (e.g., self-consistency and Laconic Decoding) when built on DeepSeek-R1


💡 一句话要点

针对o1类LLM推理过程中的“欠思考”问题,提出TIP解码策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 欠思考 解码策略 思路切换惩罚

📋 核心要点

  1. 现有o1类LLM在复杂推理中存在“欠思考”问题,即思路切换频繁,导致推理深度不足。
  2. 论文提出一种名为TIP的解码策略,通过惩罚思路切换,鼓励模型深入探索每个推理路径。
  3. 实验表明,TIP策略在多个数据集上提升了模型准确率,且无需对模型进行微调。

📝 摘要(中文)

本文研究发现,类似OpenAI o1的大型语言模型(LLM)在复杂推理任务中存在“欠思考”现象,即模型在不同推理思路间频繁切换,未能充分探索有希望的路径,导致推理深度不足和性能下降,尤其是在具有挑战性的数学问题上。通过在三个测试集和两个开源o1类模型上的实验分析,发现频繁的思路切换与不正确的答案相关。论文提出了一种新的指标来量化不正确答案中的token效率,以此衡量“欠思考”程度。为了解决这个问题,论文提出了一种带有思路切换惩罚(TIP)的解码策略,旨在抑制思路间的过早切换,鼓励对每个推理路径进行更深入的探索。实验结果表明,该方法在具有挑战性的数据集上提高了准确性,且无需模型微调。该研究有助于理解o1类LLM中的推理效率低下问题,并提供了一种实用的解决方案来增强其问题解决能力。

🔬 方法详解

问题定义:论文旨在解决o1类大型语言模型在复杂推理任务中表现出的“欠思考”问题。现有方法,如直接使用LLM进行推理,或采用思维链(Chain-of-Thought)等技术,仍然存在推理深度不足的问题,模型容易在不同思路之间跳跃,无法深入探索有潜力的推理路径,导致最终答案错误。这种频繁的思路切换是现有方法的痛点。

核心思路:论文的核心思路是通过引入一种惩罚机制,抑制模型在推理过程中过早地切换思路。鼓励模型在当前思路下进行更长时间的探索,增加推理的深度,从而提高解决问题的能力。这种思路类似于在解决复杂问题时,避免频繁改变策略,而是专注于当前策略并深入研究。

技术框架:论文提出的方法主要集中在解码阶段,无需修改模型结构或进行额外的训练。具体流程如下:1. 使用LLM生成多个推理路径(thoughts)。2. 在解码过程中,对于每个token,计算其与之前token所属thought的相似度。3. 如果当前token与之前token属于不同的thought,则施加一个惩罚项。4. 通过调整惩罚项的大小,控制思路切换的频率。

关键创新:论文的关键创新在于提出了“思路切换惩罚”(Thought Switching Penalty, TIP)这一概念,并将其融入到解码过程中。与传统的解码策略不同,TIP策略不仅仅考虑了token的概率,还考虑了token之间的语义关系,特别是它们所属的推理思路。这种方法能够有效地抑制思路的频繁切换,鼓励模型进行更深入的推理。

关键设计:TIP策略的关键设计包括:1. 如何定义和计算token之间的相似度,论文采用的是计算token embedding之间的余弦相似度。2. 如何确定token所属的thought,论文采用的是基于滑动窗口的方法,将相邻的token划分为一个thought。3. 如何设置惩罚项的大小,论文通过实验确定了一个合适的惩罚系数。损失函数没有改变,只是在解码过程中引入了惩罚项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的TIP解码策略在无需模型微调的情况下,显著提升了LLM在多个具有挑战性的数据集上的准确率。例如,在某些数据集上,TIP策略能够将准确率提高5%以上,证明了其有效性。此外,论文还通过实验验证了频繁的思路切换与不正确的答案之间存在相关性,为理解LLM的推理过程提供了新的视角。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识图谱推理、以及其他需要多步推理的自然语言处理任务。通过提升LLM的推理深度和准确性,可以提高自动化问题解决的效率和质量,在教育、科研、工程等领域具有广泛的应用前景。

📄 摘要(原文)

Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.