Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection
作者: Zhen Liu, Xinyu Ning, Zhe Hu, Xinxin Xie, Weize Li, Zhipeng Tang, Chongyu Wang, Zejun Yang, Hanlin Wang, Yitong Liu, Zhongzhu Pu
分类: cs.RO
发布日期: 2026-04-15
💡 一句话要点
提出Goal2Skill框架,通过自适应规划与反思实现长时程操作任务
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时程操作 具身智能 视觉语言动作 自适应规划 闭环控制
📋 核心要点
- 现有VLA策略在长时程操作任务中面临挑战,主要原因是依赖有限观测和端到端预测,缺乏记忆和自适应能力。
- Goal2Skill框架通过分离高层语义规划和低层运动执行,构建闭环系统,实现记忆感知、自适应重规划和在线恢复。
- 实验表明,Goal2Skill在RMBench任务上显著优于现有基线,成功率提升至32.4%,验证了结构化记忆和闭环恢复的重要性。
📝 摘要(中文)
本文提出了一种用于长时程具身操作的双系统框架。现有视觉-语言-动作(VLA)系统在长时程、依赖记忆、部分可观测、遮挡和多阶段依赖的任务中表现脆弱,因为它们依赖有限的观测窗口和端到端动作预测。该框架将高层语义推理与低层运动执行分离。高层规划器是一个基于VLM的智能体模块,维护结构化的任务记忆,执行目标分解、结果验证和错误驱动的纠正。低层执行器是一个基于VLA的视觉运动控制器,通过基于扩散的动作生成来执行每个子任务,该动作生成以保持几何结构的过滤观测为条件。这两个系统形成规划和执行之间的闭环,从而实现记忆感知推理、自适应重规划和鲁棒的在线恢复。在RMBench任务上的实验表明,该框架显著优于代表性基线,平均成功率为32.4%,而最强基线为9.8%。消融研究进一步证实了结构化记忆和闭环恢复对于长时程操作的重要性。
🔬 方法详解
问题定义:现有VLA系统在长时程具身操作任务中,由于任务的复杂性(部分可观测、遮挡、多阶段依赖)和模型本身的局限性(有限的观测窗口、端到端的动作预测),导致性能不佳,难以处理需要长期记忆和复杂推理的任务。现有方法缺乏有效的任务分解、结果验证和错误恢复机制,使得在复杂环境中难以保证操作的成功率。
核心思路:Goal2Skill的核心思路是将任务分解为高层语义规划和低层运动执行两个部分,并建立两者之间的闭环反馈机制。高层规划器负责任务分解、状态跟踪和错误纠正,低层执行器负责具体的动作执行。通过这种分层结构,系统可以更好地处理长时程任务中的复杂性和不确定性,并能够根据实际情况进行自适应调整。
技术框架:Goal2Skill框架包含两个主要模块:高层规划器(High-level Planner)和低层执行器(Low-level Executor)。高层规划器基于视觉语言模型(VLM),负责维护结构化的任务记忆,进行目标分解,验证执行结果,并在出现错误时进行纠正。低层执行器基于视觉-语言-动作(VLA)模型,负责根据高层规划器给出的子任务,生成具体的动作序列。这两个模块通过闭环反馈机制进行交互,高层规划器根据低层执行器的反馈调整规划,低层执行器根据高层规划器的指令执行动作。
关键创新:Goal2Skill的关键创新在于其双系统架构和闭环反馈机制。通过将高层语义推理和低层运动执行分离,系统可以更好地处理长时程任务中的复杂性和不确定性。高层规划器维护结构化的任务记忆,可以更好地跟踪任务状态和进行错误恢复。闭环反馈机制使得系统可以根据实际情况进行自适应调整,提高操作的鲁棒性。
关键设计:高层规划器使用基于VLM的智能体模块,利用语言模型进行任务分解和状态跟踪。低层执行器使用基于扩散模型的动作生成方法,根据几何结构保持的过滤观测生成动作序列。框架使用特定的损失函数来训练高层规划器和低层执行器,以保证其性能。具体的网络结构和参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Goal2Skill框架在RMBench任务上显著优于现有基线方法。Goal2Skill的平均成功率为32.4%,而最强的基线方法仅为9.8%,提升幅度显著。消融实验进一步验证了结构化记忆和闭环恢复机制对于长时程操作的重要性。
🎯 应用场景
Goal2Skill框架可应用于各种需要长时程操作和复杂推理的机器人任务,例如家庭服务机器人、工业自动化、医疗辅助机器人等。该框架能够提高机器人在复杂环境中的操作能力和鲁棒性,使其能够更好地完成各种任务,具有广阔的应用前景。
📄 摘要(原文)
Recent vision-language-action (VLA) systems have demonstrated strong capabilities in embodied manipulation. However, most existing VLA policies rely on limited observation windows and end-to-end action prediction, which makes them brittle in long-horizon, memory-dependent tasks with partial observability, occlusions, and multi-stage dependencies. Such tasks require not only precise visuomotor control, but also persistent memory, adaptive task decomposition, and explicit recovery from execution failures. To address these limitations, we propose a dual-system framework for long-horizon embodied manipulation. Our framework explicitly separates high-level semantic reasoning from low-level motor execution. A high-level planner, implemented as a VLM-based agentic module, maintains structured task memory and performs goal decomposition, outcome verification, and error-driven correction. A low-level executor, instantiated as a VLA-based visuomotor controller, carries out each sub-task through diffusion-based action generation conditioned on geometry-preserving filtered observations. Together, the two systems form a closed loop between planning and execution, enabling memory-aware reasoning, adaptive replanning, and robust online recovery. Experiments on representative RMBench tasks show that the proposed framework substantially outperforms representative baselines, achieving a 32.4% average success rate compared with 9.8% for the strongest baseline. Ablation studies further confirm the importance of structured memory and closed-loop recovery for long-horizon manipulation.