PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving

📄 arXiv: 2507.07495v1 📥 PDF

作者: Mihir Parmar, Palash Goyal, Xin Liu, Yiwen Song, Mingyang Ling, Chitta Baral, Hamid Palangi, Tomas Pfister

分类: cs.CL, cs.AI

发布日期: 2025-07-10

备注: 15 Pages


💡 一句话要点

提出PLAN-TUNING,通过模仿规划过程提升小模型在复杂问题求解上的能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 后训练 规划 复杂问题求解 知识蒸馏 强化学习 模仿学习

📋 核心要点

  1. 现有方法难以有效利用规划结构在后训练阶段提升小型开源LLM的性能。
  2. PLAN-TUNING通过从大型LLM中蒸馏规划轨迹,并利用监督学习和强化学习模仿规划过程。
  3. 实验表明,PLAN-TUNING在多个数据集上显著提升了模型性能,并展现出更好的泛化能力。

📝 摘要(中文)

本文提出了一种名为PLAN-TUNING的统一后训练框架,旨在提升小型开源语言模型(LLM)在复杂推理方面的能力。该框架首先从大型LLM中提取合成的任务分解(称为“规划轨迹”),然后通过监督学习和强化学习目标对小型模型进行微调,使其模仿这些规划过程。实验结果表明,经过PLAN-TUNING的模型在GSM8k和MATH基准测试中,性能平均提升约7%。此外,该模型在领域外数据集上表现出更好的泛化能力,在OlympiadBench和AIME 2024上分别实现了约10%和12%的性能提升。详细分析表明,规划轨迹能够有效提高复杂推理能力,证明PLAN-TUNING是提升小型LLM特定任务性能的有效策略。

🔬 方法详解

问题定义:论文旨在解决小型语言模型在复杂问题求解任务中表现不佳的问题。现有方法,特别是那些依赖于大型语言模型进行规划的方法,在直接应用于小型模型时效果有限,无法充分利用规划结构来提升性能。因此,如何有效地将大型模型的规划能力迁移到小型模型,是本文要解决的核心问题。

核心思路:论文的核心思路是通过模仿学习,让小型模型学习大型模型解决复杂问题时的规划过程。具体来说,首先利用大型模型生成解决问题的步骤分解(规划轨迹),然后通过监督学习和强化学习,让小型模型学习模仿这些规划轨迹,从而提升其复杂推理能力。这种方法避免了直接将大型模型的参数迁移到小型模型,而是侧重于迁移解决问题的策略和规划能力。

技术框架:PLAN-TUNING框架包含两个主要阶段:(1) 规划轨迹生成:使用大型LLM(例如GPT-3)生成解决特定任务的步骤分解,形成规划轨迹。这些轨迹包含了解决问题的中间步骤和推理过程。(2) 模型微调:使用生成的规划轨迹对小型LLM进行微调。微调过程包括两个目标:监督学习目标,用于模仿规划轨迹中的步骤;强化学习目标,用于鼓励模型生成更有效的规划策略。

关键创新:PLAN-TUNING的关键创新在于其统一的后训练框架,该框架结合了监督学习和强化学习,以模仿大型LLM的规划过程。与传统的知识蒸馏方法不同,PLAN-TUNING不仅关注最终的答案,更关注解决问题的中间步骤和推理过程,从而使小型模型能够更好地理解和执行复杂任务。此外,该方法还能够提升模型在领域外数据集上的泛化能力。

关键设计:在规划轨迹生成阶段,论文采用了prompt engineering来引导大型LLM生成高质量的规划轨迹。在模型微调阶段,监督学习损失函数用于衡量模型生成的步骤与规划轨迹中步骤的相似度,强化学习损失函数则基于奖励信号来鼓励模型生成更有效的规划策略。奖励信号可以基于解决问题的成功率或中间步骤的合理性来设计。具体的参数设置和损失函数形式在论文中有详细描述。

🖼️ 关键图片

img_0

📊 实验亮点

PLAN-TUNING在GSM8k和MATH基准测试中,性能平均提升约7%。更重要的是,在领域外数据集OlympiadBench和AIME 2024上,分别实现了约10%和12%的性能提升,表明该方法具有良好的泛化能力。这些结果表明,通过模仿规划过程,可以有效提升小型语言模型在复杂问题求解上的能力。

🎯 应用场景

PLAN-TUNING具有广泛的应用前景,可用于提升小型语言模型在教育、金融、医疗等领域的复杂问题求解能力。例如,可以用于开发智能辅导系统,帮助学生解决数学难题;也可以用于构建金融风险评估模型,提高风险预测的准确性。此外,该方法还可以应用于机器人控制领域,使机器人能够更好地规划和执行复杂任务。

📄 摘要(原文)

Recently, decomposing complex problems into simple subtasks--a crucial part of human-like natural planning--to solve the given problem has significantly boosted the performance of large language models (LLMs). However, leveraging such planning structures during post-training to boost the performance of smaller open-source LLMs remains underexplored. Motivated by this, we introduce PLAN-TUNING, a unified post-training framework that (i) distills synthetic task decompositions (termed "planning trajectories") from large-scale LLMs and (ii) fine-tunes smaller models via supervised and reinforcement-learning objectives designed to mimic these planning processes to improve complex reasoning. On GSM8k and the MATH benchmarks, plan-tuned models outperform strong baselines by an average $\sim7\%$. Furthermore, plan-tuned models show better generalization capabilities on out-of-domain datasets, with average $\sim10\%$ and $\sim12\%$ performance improvements on OlympiadBench and AIME 2024, respectively. Our detailed analysis demonstrates how planning trajectories improves complex reasoning capabilities, showing that PLAN-TUNING is an effective strategy for improving task-specific performance of smaller LLMs.