Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning

📄 arXiv: 2509.20616v2 📥 PDF

作者: Hanjiang Hu, Changliu Liu, Na Li, Yebin Wang

分类: cs.LG, eess.SY

发布日期: 2025-09-24 (更新: 2025-12-08)

备注: Accepted by IEEE Control Systems Letters (L-CSS)


💡 一句话要点

提出基于单轮强化学习训练任务推理LLM Agent,解决多轮任务规划问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮任务规划 单轮任务推理 强化学习 大型语言模型 策略优化 Group Relative Policy Optimization LLM Agent

📋 核心要点

  1. 多轮任务规划中,LLM Agent面临稀疏奖励、长时程信用分配和高计算开销等挑战。
  2. 论文提出将多轮任务规划转化为单轮任务推理问题,利用专家轨迹进行密集奖励的策略优化。
  3. 实验结果表明,使用单轮GRPO训练的15亿参数模型优于高达140亿参数的基线模型,成功率达70%。

📝 摘要(中文)

大型语言模型(LLMs)在知识获取、推理和工具使用方面表现出卓越的能力,使其成为自主Agent应用的有希望的候选者。然而,训练LLM Agent进行复杂的多轮任务规划面临着重大挑战,包括稀疏的episode奖励、跨长时程的信用分配以及多轮交互环境中强化学习的计算开销。为此,本文提出了一种新方法,将多轮任务规划转化为单轮任务推理问题,从而可以通过具有来自专家轨迹的密集且可验证的奖励的Group Relative Policy Optimization (GRPO) 实现有效的策略优化。我们的理论分析表明,单轮任务推理的GRPO改进导致最小轮次下多轮成功概率的下界,以及推广到具有较短时程的子任务。在复杂任务规划基准上的实验评估表明,我们使用单轮GRPO训练的15亿参数模型与高达140亿参数的更大的基线模型相比,实现了卓越的性能,对于长时程规划任务的成功率为70%。

🔬 方法详解

问题定义:论文旨在解决复杂多轮任务规划中训练LLM Agent的难题。现有方法面临奖励稀疏、信用分配困难以及计算成本高等痛点,导致训练效率低下,难以获得高性能的Agent。

核心思路:论文的核心思路是将复杂的多轮任务规划问题分解为更简单的单轮任务推理问题。通过这种转化,可以利用专家轨迹提供密集且可验证的奖励信号,从而加速强化学习过程并提高训练效率。

技术框架:整体框架包括以下几个主要步骤:1) 将多轮任务规划问题转化为单轮任务推理问题;2) 利用专家轨迹生成密集奖励信号;3) 使用Group Relative Policy Optimization (GRPO) 算法进行策略优化;4) 在复杂任务规划基准上进行实验评估。

关键创新:最重要的技术创新在于将多轮任务规划问题转化为单轮任务推理问题。这种转化使得可以使用更有效的强化学习算法和更丰富的监督信号,从而显著提高了训练效率和Agent的性能。此外,论文还提出了使用GRPO算法进行策略优化,进一步提升了训练效果。

关键设计:论文的关键设计包括:1) 如何将多轮任务规划问题转化为单轮任务推理问题,具体转化方法未知;2) 如何利用专家轨迹生成密集奖励信号,奖励函数的具体形式未知;3) GRPO算法的具体实现细节,包括参数设置和损失函数等未知。

📊 实验亮点

实验结果表明,使用单轮GRPO训练的15亿参数模型在复杂任务规划基准上取得了显著的性能提升,成功率达到70%。与高达140亿参数的基线模型相比,该方法在参数量更小的情况下实现了更优的性能,证明了其高效性和有效性。这一结果表明,通过将多轮任务规划转化为单轮任务推理问题,可以显著提高LLM Agent的训练效率和性能。

🎯 应用场景

该研究成果可应用于各种需要复杂任务规划的场景,例如机器人导航、智能家居控制、自动驾驶等。通过训练具有强大推理能力的LLM Agent,可以实现更智能、更自主的系统,从而提高效率、降低成本并改善用户体验。未来的研究可以进一步探索如何将该方法应用于更广泛的任务规划问题,并提高Agent的泛化能力。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable capabilities in knowledge acquisition, reasoning, and tool use, making them promising candidates for autonomous agent applications. However, training LLM agents for complex multi-turn task planning faces significant challenges, including sparse episode-wise rewards, credit assignment across long horizons, and the computational overhead of reinforcement learning in multi-turn interaction settings. To this end, this paper introduces a novel approach that transforms multi-turn task planning into single-turn task reasoning problems, enabling efficient policy optimization through Group Relative Policy Optimization (GRPO) with dense and verifiable reward from expert trajectories. Our theoretical analysis shows that GRPO improvement on single-turn task reasoning results in a lower bound of the multi-turn success probability under the minimal turns, as well as the generalization to subtasks with shorter horizons. Experimental evaluation on the complex task planning benchmark demonstrates that our 1.5B parameter model trained with single-turn GRPO achieves superior performance compared to larger baseline models up to 14B parameters, with success rates of 70% for long-horizon planning tasks.