Thinkless: LLM Learns When to Think

作者: Gongfan Fang, Xinyin Ma, Xinchao Wang

分类: cs.CL, cs.AI

发布日期: 2025-05-19 (更新: 2025-06-26)

🔗 代码/项目: GITHUB

💡 一句话要点

Thinkless：LLM学习何时思考，自适应选择推理模式提升效率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 推理 强化学习 效率优化 自适应推理

📋 核心要点

现有LLM推理模型对所有问题都进行复杂推理，导致计算效率低下，尤其对于简单问题。
Thinkless框架使LLM能够根据任务复杂度和自身能力，自适应选择简短或详细推理模式。
通过DeGRPO算法，Thinkless在多个基准测试中显著减少长链思考的使用，提升效率。

📝 摘要（中文）

具备扩展思维链推理能力的推理语言模型在需要复杂逻辑推理的任务上表现出了卓越的性能。然而，对所有查询都应用精细的推理通常会导致大量的计算低效，尤其是在许多问题都可以直接解决的情况下。这促使我们思考一个开放性问题：LLM能否学会何时思考？为了回答这个问题，我们提出了Thinkless，这是一个可学习的框架，它使LLM能够根据任务复杂性和模型自身的能力，自适应地在简短形式和详细推理之间进行选择。Thinkless在强化学习范式下进行训练，并采用两个控制token，用于简洁的响应，用于详细的推理。我们方法的核心是一种解耦组相对策略优化（DeGRPO）算法，该算法将混合推理的学习目标分解为两个组成部分：（1）控制token损失，用于控制推理模式的选择，以及（2）响应损失，用于提高生成答案的准确性。这种解耦公式能够对每个目标的贡献进行细粒度的控制，稳定训练并有效防止在原始GRPO中观察到的崩溃。在Minerva Algebra、MATH-500和GSM8K等多个基准测试中，Thinkless能够减少50%-90%的长链思考的使用，从而显著提高推理语言模型的效率。

🔬 方法详解

问题定义：现有的大语言模型在解决推理问题时，通常采用思维链（Chain-of-Thought, CoT）等方法进行逐步推理，虽然提高了复杂问题的解决能力，但对于简单问题也进行复杂的推理过程，造成了计算资源的浪费，降低了效率。因此，如何让LLM学会根据问题的难易程度选择合适的推理模式，避免不必要的计算开销，是本文要解决的核心问题。

核心思路：本文的核心思路是让LLM具备“思考”与“不思考”的能力，即根据输入问题的复杂程度，自适应地选择是否进行详细的推理过程。具体来说，模型会学习何时使用简短的直接回答，何时使用详细的思维链推理。这种自适应选择能够显著提高计算效率，同时保持甚至提升模型在复杂问题上的性能。

技术框架：Thinkless框架主要包含以下几个关键模块：1) 一个预训练的LLM作为基础模型；2) 两个特殊的控制token：和，分别用于指示模型进行简短回答和详细推理；3) 一个强化学习训练过程，用于学习何时使用哪个控制token。整体流程是：给定一个问题，模型首先预测应该使用哪个控制token，然后根据选择的token生成答案。

关键创新：本文最重要的技术创新在于提出了解耦组相对策略优化（Decoupled Group Relative Policy Optimization, DeGRPO）算法。DeGRPO将混合推理的学习目标分解为两个部分：控制token损失和响应损失。控制token损失负责学习何时选择或，而响应损失负责提高生成答案的准确性。这种解耦的方式可以更精细地控制每个目标的贡献，从而稳定训练过程，避免了传统GRPO中容易出现的训练崩溃问题。

关键设计：在训练过程中，使用了强化学习算法来优化控制token的选择策略。具体来说，模型会根据生成的答案的正确性获得奖励，然后使用DeGRPO算法来更新策略。DeGRPO算法的关键在于将控制token的选择和答案生成分开优化，避免了两者之间的相互干扰。此外，还设计了合适的奖励函数，以鼓励模型在简单问题上选择，在复杂问题上选择。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Thinkless在Minerva Algebra、MATH-500和GSM8K等多个数学推理基准测试中表现出色。与传统的思维链推理方法相比，Thinkless能够减少50%-90%的长链思考的使用，同时保持甚至提升模型的准确率。例如，在某些任务上，Thinkless在减少计算量的同时，甚至获得了更高的性能。

🎯 应用场景

Thinkless框架具有广泛的应用前景，可以应用于各种需要推理能力的语言模型中，例如问答系统、对话系统、代码生成等。通过自适应地选择推理模式，可以显著提高这些系统的效率和响应速度，降低计算成本，并提升用户体验。该研究对于推动LLM在资源受限环境下的应用具有重要意义。

📄 摘要（原文）

Reasoning Language Models, capable of extended chain-of-thought reasoning, have demonstrated remarkable performance on tasks requiring complex logical inference. However, applying elaborate reasoning for all queries often results in substantial computational inefficiencies, particularly when many problems admit straightforward solutions. This motivates an open question: Can LLMs learn when to think? To answer this, we propose Thinkless, a learnable framework that empowers an LLM to adaptively select between short-form and long-form reasoning, based on both task complexity and the model's ability. Thinkless is trained under a reinforcement learning paradigm and employs two control tokens, for concise responses and for detailed reasoning. At the core of our method is a Decoupled Group Relative Policy Optimization (DeGRPO) algorithm, which decomposes the learning objective of hybrid reasoning into two components: (1) a control token loss that governs the selection of the reasoning mode, and (2) a response loss that improves the accuracy of the generated answers. This decoupled formulation enables fine-grained control over the contributions of each objective, stabilizing training and effectively preventing collapse observed in vanilla GRPO. Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% - 90%, significantly improving the efficiency of Reasoning Language Models. The code is available at https://github.com/VainF/Thinkless

Thinkless: LLM Learns When to Think

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理