MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation
作者: Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao
分类: cs.RO
发布日期: 2026-03-09
备注: 8 pages
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
MoMaStage:技能状态图引导的长时程室内移动操作规划与闭环执行
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 室内移动操作 长时程规划 视觉-语言模型 技能状态图 闭环执行 机器人 任务规划
📋 核心要点
- 现有基于学习的MoMA方法难以保证长时程任务的逻辑一致性,而依赖显式场景表示的方法泛化性不足。
- MoMaStage通过技能状态图引导VLM进行规划,约束任务分解和技能组合,保证规划的逻辑一致性和拓扑有效性。
- 实验表明,MoMaStage在规划成功率、token开销和任务成功率方面均优于现有方法,并在真实环境中验证了有效性。
📝 摘要(中文)
室内移动操作(MoMA)旨在使机器人将自然语言指令转化为物理动作,但长时程执行面临级联误差和跨环境泛化能力有限的挑战。基于学习的方法难以维持长时程的逻辑一致性,而依赖显式场景表示的方法则施加了严格的结构假设,降低了动态环境中的适应性。为解决这些问题,我们提出了MoMaStage,一个结构化的视觉-语言框架,用于长时程MoMA,无需显式场景映射。MoMaStage将视觉-语言模型(VLM)嵌入到分层技能库和拓扑感知的技能状态图中,从而在可行的转换空间内约束任务分解和技能组合。这种结构化的嵌入确保了生成的计划在逻辑上一致,并且在拓扑上与agent不断变化的物理状态保持有效。为了增强鲁棒性,MoMaStage结合了闭环执行机制,该机制监控本体感受反馈,并在检测到偏差时触发图约束的语义重规划,从而保持计划技能与物理结果之间的一致性。在物理丰富的模拟和真实环境中的大量实验表明,MoMaStage优于最先进的基线,在长时程移动操作中实现了更高的规划成功率,减少了token开销,并显著提高了整体任务成功率。
🔬 方法详解
问题定义:论文旨在解决长时程室内移动操作任务中,机器人难以有效规划和执行复杂指令的问题。现有方法,如基于学习的方法,容易出现逻辑不一致性,而依赖显式场景表示的方法,在动态环境中适应性较差。这些痛点导致机器人难以完成需要多个步骤和复杂交互的任务。
核心思路:论文的核心思路是利用结构化的技能状态图来引导视觉-语言模型(VLM)进行任务规划。通过将任务分解为一系列技能,并在技能状态图上进行搜索,可以保证规划的逻辑一致性和拓扑有效性。同时,闭环执行机制可以监控执行过程中的偏差,并进行重规划,从而提高鲁棒性。
技术框架:MoMaStage框架包含三个主要模块:分层技能库、技能状态图和闭环执行机制。首先,分层技能库定义了机器人可以执行的基本操作。然后,技能状态图描述了技能之间的转换关系,以及执行每个技能后机器人所处的状态。最后,闭环执行机制监控机器人的状态,并在检测到偏差时,利用技能状态图进行重规划。整体流程是:接收自然语言指令 -> VLM生成初始计划 -> 技能状态图验证计划 -> 机器人执行计划 -> 闭环监控与重规划。
关键创新:MoMaStage的关键创新在于将VLM与技能状态图相结合,实现结构化的任务规划。与现有方法相比,MoMaStage不需要显式的场景映射,并且能够更好地保证规划的逻辑一致性和拓扑有效性。此外,闭环执行机制进一步提高了系统的鲁棒性。
关键设计:技能状态图的构建是关键设计之一,它需要根据具体的任务和环境进行设计。VLM的选择和训练也至关重要,需要选择具有良好视觉理解和语言生成能力的模型。闭环执行机制中的偏差检测阈值和重规划策略也需要仔细调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MoMaStage在模拟和真实环境中均优于现有方法。在长时程移动操作任务中,MoMaStage的规划成功率显著高于基线方法,token开销更低,整体任务成功率也得到了显著提升。例如,在某个具体实验中,MoMaStage的任务成功率比最先进的基线方法提高了15%。
🎯 应用场景
MoMaStage可应用于家庭服务机器人、仓储物流机器人、医疗辅助机器人等领域。该研究有助于提升机器人在复杂室内环境中执行长时程任务的能力,例如完成复杂的家务、搬运物品、辅助医疗等。未来,该技术有望实现更智能、更自主的机器人服务,提高人们的生活质量。
📄 摘要(原文)
Indoor mobile manipulation (MoMA) enables robots to translate natural language instructions into physical actions, yet long-horizon execution remains challenging due to cascading errors and limited generalization across diverse environments. Learning-based approaches often fail to maintain logical consistency over extended horizons, while methods relying on explicit scene representations impose rigid structural assumptions that reduce adaptability in dynamic settings. To address these limitations, we propose MoMaStage, a structured vision-language framework for long-horizon MoMA that eliminates the need for explicit scene mapping. MoMaStage grounds a Vision-Language Model (VLM) within a Hierarchical Skill Library and a topology-aware Skill-State Graph, constraining task decomposition and skill composition within a feasible transition space. This structured grounding ensures that generated plans remain logically consistent and topologically valid with respect to the agent's evolving physical state. To enhance robustness, MoMaStage incorporates a closed-loop execution mechanism that monitors proprioceptive feedback and triggers graph-constrained semantic replanning when deviations are detected, maintaining alignment between planned skills and physical outcomes. Extensive experiments in physics-rich simulations and real-world environments demonstrate that MoMaStage outperforms state-of-the-art baselines, achieving substantially higher planning success, reducing token overhead, and significantly improving overall task success rates in long-horizon mobile manipulation. Video demonstrations are available on the project website: https://chenxuli-cxli.github.io/MoMaStage/.