Self-CriTeach: LLM Self-Teaching and Self-Critiquing for Improving Robotic Planning via Automated Domain Generation
作者: Jinbang Huang, Zhiyuan Li, Yuanzhao Hu, Zhanguang Zhang, Mark Coates, Xingyue Quan, Yingxue Zhang
分类: cs.RO
发布日期: 2025-09-25 (更新: 2026-02-03)
备注: 31 pages, 6 figures
💡 一句话要点
Self-CriTeach:利用LLM自教自评改进机器人规划,实现自动领域生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人规划 大型语言模型 自监督学习 强化学习 领域生成 思维链 任务规划
📋 核心要点
- 现有机器人任务规划方法在处理不完美的逻辑状态和感知噪声时存在脆弱性,且缺乏有效的推理监督。
- Self-CriTeach框架利用LLM自主生成规划领域,既用于生成训练数据,又作为强化学习的结构化奖励函数。
- 实验表明,该方法提高了规划成功率,增强了跨任务泛化能力,降低了推理成本,并提升了鲁棒性。
📝 摘要(中文)
大型语言模型(LLMs)最近在机器人任务规划方面展现出强大的潜力,尤其是在自动规划领域生成方面。然而,规划领域在不完美的逻辑状态和感知噪声下非常脆弱。以往的方法主要将生成的规划领域视为规划工具,忽略了它们作为可扩展的推理监督和结构化奖励信号的潜力。同时,推理LLM依赖于思维链(CoT)监督,而CoT监督的收集对于机器人任务来说成本高昂,并且强化学习(RL)在奖励工程方面面临挑战。我们提出了Self-CriTeach,一个LLM自教自评框架,其中LLM自主生成符号规划领域,这些领域具有双重作用:(i)支持大规模生成机器人规划问题-计划对,以及(ii)提供结构化奖励函数。首先,自编写的领域支持大规模生成符号任务计划,这些计划被自动转换为扩展的CoT轨迹,用于监督微调。其次,自编写的领域被重用为结构化奖励函数,为强化学习提供密集的反馈,而无需手动奖励工程。这种统一的训练管道产生了一个规划增强的LLM,具有更高的规划成功率、更强的跨任务泛化能力、更低的推理成本以及对不完美的逻辑状态的改进的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决机器人任务规划中,LLM生成的规划领域在不完美逻辑状态和感知噪声下的脆弱性问题,以及缺乏有效且低成本的推理监督的问题。现有方法主要将生成的规划领域视为规划工具,忽略了其作为监督信号和奖励函数的潜力,同时依赖于昂贵的CoT标注或需要手动设计的奖励函数。
核心思路:论文的核心思路是利用LLM自身的能力,使其能够自主生成规划领域,并利用这些自生成的领域来指导LLM自身的学习和改进。具体来说,LLM生成的规划领域既可以用于生成大量的机器人规划问题-计划对,从而进行监督学习,也可以作为强化学习的结构化奖励函数,从而避免了手动奖励工程的难题。
技术框架:Self-CriTeach框架包含以下主要阶段:1) LLM自主生成符号规划领域;2) 利用生成的领域大规模生成机器人规划问题-计划对,并将计划转换为扩展的CoT轨迹;3) 使用生成的CoT轨迹对LLM进行监督微调;4) 将生成的领域重用为强化学习的结构化奖励函数,对LLM进行强化学习。整个框架形成一个自教自评的闭环,不断提升LLM的规划能力。
关键创新:该方法最重要的创新点在于提出了一个LLM自教自评的框架,将LLM生成的规划领域同时用于监督学习和强化学习,从而避免了对人工标注数据和手动设计的奖励函数的依赖。这种方法充分利用了LLM自身的推理能力,实现了低成本且高效的机器人规划学习。
关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但是,关键的设计在于如何将符号规划领域转换为可用于监督学习的CoT轨迹,以及如何将其转换为可用于强化学习的结构化奖励函数。具体转换方法未知。
🖼️ 关键图片
📊 实验亮点
论文提出的Self-CriTeach框架能够显著提高LLM在机器人规划任务中的性能。具体表现为更高的规划成功率、更强的跨任务泛化能力、更低的推理成本以及对不完美逻辑状态的改进的鲁棒性。具体的性能数据和对比基线未知。
🎯 应用场景
该研究成果可应用于各种机器人任务规划场景,例如家庭服务机器人、工业机器人、自动驾驶等。通过自动生成规划领域和奖励函数,可以降低机器人任务规划的开发成本,提高机器人的自主性和适应性,并加速机器人在复杂环境中的部署。
📄 摘要(原文)
Large Language Models (LLMs) have recently shown strong promise for robotic task planning, particularly through automatic planning domain generation. Planning domains are brittle under imperfect logical states and perception noise; prior approaches largely treat generated planning domains as plan utilities, overlooking their potential as scalable sources of reasoning supervision and structured reward signals. At the same time, reasoning LLMs depend on chain-of-thought (CoT) supervision that is expensive to collect for robotic tasks, and reinforcement learning (RL) faces challenges in reward engineering. We propose Self-CriTeach, an LLM self-teaching and self-critiquing framework in which an LLM autonomously generates symbolic planning domains that serve a dual role: (i) enabling large-scale generation of robotic planning problem-plan pairs, and (ii) providing structured reward functions. First, the self-written domains enable large-scale generation of symbolic task plans, which are automatically transformed into extended CoT trajectories for supervised fine-tuning. Second, the self-written domains are reused as structured reward functions, providing dense feedback for reinforcement learning without manual reward engineering. This unified training pipeline yields a planning-enhanced LLM with higher planning success rates, stronger cross-task generalization, reduced inference cost, and improved robustness to imperfect logical states.