MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs

作者: Purbesh Mitra, Sennur Ulukus

分类: cs.CL, cs.AI, cs.IT, cs.LG, eess.SY

发布日期: 2025-07-03

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

提出MOTIF，通过强化学习微调LLM，实现模块化思维以突破上下文长度限制。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 模块化思维 上下文长度 参数高效微调

📋 核心要点

大型语言模型推理能力受限于上下文长度，无法处理需要大量token的复杂推理任务。
MOTIF通过强化学习微调，使LLM能够进行多轮模块化思考，有效扩展上下文理解范围。
实验表明，MOTIF在数学问题求解任务上优于传统GRPO方法，且具有更高的样本效率。

📝 摘要（中文）

本文提出了一种名为MOTIF（Modular Thinking via Reinforcement Finetuning）的强化学习训练方法，旨在使大型语言模型（LLM）能够生成多轮思维token，从而有效地扩展模型的上下文理解能力。该方法通过强化学习微调，使模型能够采用模块化思维策略，突破LLM上下文长度的限制。研究人员在GSM8K数据集上，使用参数高效微调方法训练了开源模型Qwen2.5-3B-Instruct，并在MATH500和AIME2024基准测试中验证了其准确性。实验结果表明，相较于基于GRPO的训练方法，MOTIF在MATH500和AIME2024上分别取得了3.8%和3.3%的性能提升。此外，该提升仅使用了15%的样本，证明了MOTIF的样本高效性。代码和模型已开源。

🔬 方法详解

问题定义：大型语言模型（LLM）的推理能力受到上下文长度的限制。当需要大量的思考token时，LLM难以维持对先前生成token的关注，导致推理性能下降。现有的方法，如GRPO，虽然可以鼓励模型使用更多的思考token，但仍然无法突破上下文长度的瓶颈。因此，如何让LLM在有限的上下文窗口内进行更深层次的推理是一个关键问题。

核心思路：MOTIF的核心思路是让LLM学会将复杂的推理过程分解为多个模块化的步骤，并在每一轮思考中只关注与当前步骤相关的上下文信息。通过多轮迭代，LLM可以逐步构建完整的推理链，从而突破上下文长度的限制。这种模块化思维方式类似于人类解决复杂问题时的分步策略。

技术框架：MOTIF的整体框架基于强化学习。首先，使用GRPO对LLM进行初步训练，使其具备一定的推理能力。然后，引入MOTIF模块，该模块负责控制LLM进行多轮思考。在每一轮思考中，MOTIF会根据当前状态选择一个合适的动作（例如，生成一段推理文本），并根据环境的反馈（例如，推理的正确性）来调整策略。通过不断地学习，MOTIF可以引导LLM生成更有效的模块化推理过程。

关键创新：MOTIF的关键创新在于将模块化思维的概念引入到LLM的强化学习训练中。与传统的端到端训练方法不同，MOTIF鼓励LLM将复杂的推理过程分解为多个独立的模块，从而降低了每一轮思考的难度，并提高了推理的效率。此外，MOTIF还引入了一种新的奖励函数，该函数不仅考虑了推理的正确性，还考虑了模块化推理的效率。

关键设计：MOTIF使用Qwen2.5-3B-Instruct作为基础模型，并在GSM8K数据集上进行训练。采用参数高效微调方法，以减少训练成本。奖励函数的设计至关重要，它需要平衡推理的正确性和模块化推理的效率。具体来说，奖励函数可以包括以下几个部分：1) 推理正确性的奖励；2) 模块化程度的奖励（例如，鼓励模型生成更多的模块）；3) 模块之间一致性的奖励（例如，鼓励模型在不同的模块中使用相同的概念）。此外，还需要仔细调整强化学习算法的超参数，以确保训练的稳定性和收敛性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MOTIF在MATH500和AIME2024基准测试中分别取得了3.8%和3.3%的性能提升，超过了基于GRPO的训练方法。更重要的是，MOTIF仅使用了15%的训练样本就达到了这一性能，展示了其卓越的样本效率。这表明MOTIF能够更有效地利用有限的训练数据，降低训练成本，并提高模型的泛化能力。

🎯 应用场景

MOTIF具有广泛的应用前景，例如复杂数学问题求解、代码生成、知识图谱推理等。通过模块化思维，LLM可以处理更长的上下文信息，解决更复杂的任务。该方法还可以应用于智能客服、智能助手等领域，提升人机交互的自然性和流畅性。未来，MOTIF有望成为构建更强大、更智能的LLM的重要技术手段。

📄 摘要（原文）

Recent advancements in the reasoning capabilities of large language models (LLMs) show that employing group relative policy optimization (GRPO) algorithm for reinforcement learning (RL) training allows the models to use more thinking/reasoning tokens for generating better responses. However, LLMs can generate only a finite amount of tokens while maintaining attention to the previously generated tokens. This limit, also known as the context size of an LLM, is a bottleneck in LLM reasoning with arbitrarily large number of tokens. To think beyond the limit of context size, an LLM must employ a modular thinking strategy to reason over multiple rounds. In this work, we propose $\textbf{MOTIF: Modular Thinking via Reinforcement Finetuning}$ -- an RL training method for generating thinking tokens in multiple rounds, effectively allowing the model to think with additional context size. We trained the open-source model Qwen2.5-3B-Instruct on GSM8K dataset via parameter efficient fine-tuning and tested its accuracy on MATH500 and AIME2024 benchmarks. Our experiments show 3.8\% and 3.3\% improvements over vanilla GRPO based training in the respective benchmarks. Furthermore, this improvement was achieved with only 15\% of samples, thus demonstrating sample efficiency of MOTIF. Our code and models are available at https://github.com/purbeshmitra/MOTIF and https://huggingface.co/purbeshmitra/MOTIF, respectively.

MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理