Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

作者: Yule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He

分类: cs.CL, cs.AI

发布日期: 2025-04-18 (更新: 2025-08-04)

💡 一句话要点

提出Thought Manipulation方法，通过外部CoT引导，提升大模型推理效率并降低计算成本。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 大型推理模型 思维操纵 外部CoT 推理效率 计算成本

📋 核心要点

大型推理模型存在“过度思考”问题，生成过多冗余步骤，导致计算成本高昂且性能提升有限。
Thought Manipulation方法通过在模型思考过程中注入外部CoT，引导模型减少不必要的中间步骤。
实验表明，该方法在保持性能的同时，显著降低了输出token数量，并能有效应对外部CoT的缺陷。

📝 摘要（中文）

大型推理模型（LRMs）的最新进展表明，扩展测试时计算可以增强各种任务的推理能力。然而，LRMs 经常遇到“过度思考”问题，即模型生成过多的冗余推理步骤，而性能提升有限。本文通过实验揭示了 LRM 行为的一个重要特征：将由较小模型生成的外部 CoT 放置在 thinking token（\texttt{} 和 \texttt{}）之间，可以有效地操纵模型以生成更少的思考步骤。基于这一发现，我们提出了一种简单而有效的流程 \Method，使 LRM 能够绕过不必要的中间步骤，从而显著降低计算成本。我们进行了广泛的实验来评估 \Method 的效用和效率。例如，当应用于 LiveBench/Code 数据集上的 QwQ-32B 时，\Method 保持了原始性能，同时将输出 token 数量减少了约 30%，并且 CoT 生成器引入的开销极小。此外，我们确定了两种次优模式：盲目遵循有缺陷的外部思考和不必要的重新思考，并表明简单的缓解措施（例如，难度感知回退）可以进一步提高性能。总的来说，\Method 提供了一种实用、通用且高效的方式来优化 LRM 推理，使强大的推理模型更易于访问，并可扩展到实际应用。

🔬 方法详解

问题定义：大型推理模型在进行复杂推理任务时，常常会产生大量的中间步骤，即“过度思考”。这些步骤并非全部有效，反而增加了计算负担，降低了推理效率。现有方法难以有效控制模型的思考过程，导致资源浪费和性能瓶颈。

核心思路：论文的核心思路是利用外部生成的CoT（Chain-of-Thought）来引导大型推理模型的思考过程。通过在模型的“思考”token之间插入外部CoT，可以影响模型的推理路径，使其避免不必要的中间步骤，从而提高效率。

技术框架：该方法主要包含两个阶段：1) 使用较小的模型生成外部CoT；2) 将生成的CoT插入到大型推理模型的思考过程中，引导其推理。具体来说，在模型的输入中，使用特殊的token（\texttt{} 和 \texttt{}）标记出需要进行思考的部分，然后将外部CoT插入到这些token之间。

关键创新：该方法最重要的创新点在于，它提供了一种外部控制大型推理模型思考过程的有效手段。与传统的增加模型规模或训练数据的方法不同，该方法通过外部干预，直接影响模型的推理路径，从而实现效率提升。

关键设计：为了应对外部CoT可能存在的缺陷，论文提出了难度感知回退机制。该机制根据问题的难度，选择是否使用外部CoT。如果问题难度较高，模型可以自主进行推理，避免受到错误CoT的误导。此外，论文还研究了不同大小的外部CoT对模型性能的影响，并选择合适的CoT生成模型。

🖼️ 关键图片

📊 实验亮点

在LiveBench/Code数据集上，将该方法应用于QwQ-32B模型，能够在保持原始性能的前提下，将输出token数量减少约30%。实验结果表明，该方法能够有效降低计算成本，并且CoT生成器引入的开销极小。此外，难度感知回退机制能够进一步提高模型的性能，有效应对外部CoT可能存在的缺陷。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的场景，例如代码生成、知识问答、数学问题求解等。通过降低大型推理模型的计算成本，可以使其更容易部署到资源受限的环境中，并加速相关应用的开发和普及。此外，该方法还可以用于优化模型的推理过程，提高模型的鲁棒性和可靠性。

📄 摘要（原文）

Recent advancements in large reasoning models (LRMs) have demonstrated the effectiveness of scaling test-time computation to enhance reasoning capabilities on various tasks. However, LRMs often suffer from an ``overthinking'' problem, where the model generates excessively redundant reasoning steps with limited performance gains. In this work, we empirically reveal an important characteristic of LRM behaviors that placing external CoTs generated by smaller models between the thinking token (\texttt{} and \texttt{}) can effectively manipulate the model to generate fewer thoughts. Building on this finding, we propose a simple yet efficient pipeline, \Method, to enable LRMs to bypass unnecessary intermediate steps, thereby significantly reducing computational costs. We conduct extensive experiments to evaluate the utility and efficiency of \Method. For instance, when applied to QwQ-32B on the LiveBench/Code dataset, \Method keeps the original performance while reducing output token counts by approximately 30\%, with minimal overhead introduced by the CoT generator. Furthermore, we identify two suboptimal modes, blindly following flawed external thoughts and unnecessary rethinking, and show that simple mitigations, such as difficulty-aware fallbacks, can further improve performance. Overall, \Method offers a practical, general, and efficient way to optimize LRM inference, making powerful reasoning models more accessible and scalable for real-world applications.

Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理