MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation

📄 arXiv: 2603.08572v1 📥 PDF

作者: Yutong Shen, Hangxu Liu, Penghui Liu, Jiashuo Luo, Yongkang Zhang, Rex Morvley, Chen Jiang, Jianwei Zhang, Lei Zhang

分类: cs.RO, cs.AI

发布日期: 2026-03-09

备注: 8 figures, https://syt2004.github.io/metaworldX/


💡 一句话要点

MetaWorld-X:通过VLM协调专家实现人型机器人运动操作的分层世界建模

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人型机器人 运动操作 分层控制 视觉-语言模型 强化学习 模仿学习 世界模型

📋 核心要点

  1. 现有强化学习方法依赖单一策略学习多种技能,导致梯度干扰和运动冲突,生成不自然的动作,泛化性差。
  2. MetaWorld-X将复杂控制分解为专家策略,通过模仿约束强化学习引入人类运动先验,保证动作自然性。
  3. 利用视觉-语言模型(VLM)监督智能路由机制(IRM),根据任务语义动态组合专家策略,提升组合泛化能力。

📝 摘要(中文)

本文提出MetaWorld-X,一个用于人型机器人控制的分层世界模型框架,旨在解决机器人同时进行运动和操作(运动操作)时,学习自然、稳定和可组合泛化的全身控制策略的难题。该方法遵循分而治之的原则,将复杂的控制问题分解为一组专门的专家策略(SEP)。每个专家策略通过模仿约束强化学习,在人类运动先验的指导下进行训练,引入生物力学一致的归纳偏置,确保生成自然且符合物理规律的运动。在此基础上,进一步开发了一个由视觉-语言模型(VLM)监督的智能路由机制(IRM),实现语义驱动的专家策略组合。VLM引导的路由器根据高层任务语义动态地集成专家策略,从而促进多阶段运动操作任务中的组合泛化和自适应执行。

🔬 方法详解

问题定义:现有的人形机器人运动操作控制方法,特别是基于强化学习的方法,通常依赖于单一的策略来学习多种技能。这种单体策略在高自由度系统中容易导致跨技能的梯度干扰和运动模式冲突,从而产生不自然的运动,稳定性和泛化能力也受到限制。尤其是在复杂的、多阶段的运动操作任务中,这种问题更加突出。

核心思路:MetaWorld-X的核心思路是将复杂的运动操作控制问题分解为多个专门的专家策略(Specialized Expert Policies, SEP),每个专家策略负责处理特定的子任务或运动模式。通过分而治之的策略,降低了单个策略的复杂性,减少了技能之间的干扰。同时,利用视觉-语言模型(VLM)来指导专家策略的组合,使得系统能够根据高层任务语义动态地选择和集成不同的专家策略,从而实现更强的泛化能力和自适应性。

技术框架:MetaWorld-X的整体框架包含两个主要组成部分:专家策略集合和智能路由机制(IRM)。首先,通过模仿约束强化学习训练一组专门的专家策略,每个专家策略都学习在特定任务或运动模式下执行。其次,开发一个由视觉-语言模型(VLM)监督的智能路由机制,该机制根据高层任务语义动态地选择和组合不同的专家策略。VLM负责理解任务描述,并将其转化为对专家策略的调用序列。IRM则负责根据VLM的指令,协调各个专家策略的执行,最终完成整个运动操作任务。

关键创新:MetaWorld-X的关键创新在于将分层控制和视觉-语言模型相结合,实现语义驱动的专家策略组合。传统的强化学习方法通常难以处理复杂的、多阶段的任务,而MetaWorld-X通过将任务分解为多个子任务,并利用VLM来指导专家策略的组合,有效地解决了这个问题。此外,通过模仿约束强化学习引入人类运动先验,保证了生成运动的自然性和物理合理性。

关键设计:在专家策略的训练中,使用了模仿约束强化学习,通过引入人类运动数据作为先验知识,约束策略的学习过程,从而保证生成运动的自然性和物理合理性。智能路由机制(IRM)的设计关键在于如何有效地利用VLM的输出,将其转化为对专家策略的调用序列。具体的实现细节,例如VLM的选择、路由机制的实现方式、以及专家策略之间的协调机制,需要在实际应用中进行仔细的设计和调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了MetaWorld-X在多阶段运动操作任务中的有效性。实验结果表明,MetaWorld-X能够生成自然、稳定且具有良好泛化能力的运动,并且在复杂任务中的表现优于传统的强化学习方法。具体的性能数据和对比基线在论文中进行了详细的展示,证明了该方法的优越性。

🎯 应用场景

MetaWorld-X具有广泛的应用前景,例如在家庭服务机器人、工业自动化、医疗康复等领域。它可以用于开发能够执行复杂运动操作任务的机器人,例如在家庭环境中进行物品整理、在工厂中进行装配、在医院中辅助病人进行康复训练等。该研究的实际价值在于提高了机器人控制的自然性、稳定性和泛化能力,为实现更智能、更可靠的机器人系统奠定了基础。未来,该方法可以进一步扩展到其他类型的机器人和任务中,例如无人驾驶车辆、无人机等。

📄 摘要(原文)

Learning natural, stable, and compositionally generalizable whole-body control policies for humanoid robots performing simultaneous locomotion and manipulation (loco-manipulation) remains a fundamental challenge in robotics. Existing reinforcement learning approaches typically rely on a single monolithic policy to acquire multiple skills, which often leads to cross-skill gradient interference and motion pattern conflicts in high-degree-of-freedom systems. As a result, generated behaviors frequently exhibit unnatural movements, limited stability, and poor generalization to complex task compositions. To address these limitations, we propose MetaWorld-X, a hierarchical world model framework for humanoid control. Guided by a divide-and-conquer principle, our method decomposes complex control problems into a set of specialized expert policies (Specialized Expert Policies, SEP). Each expert is trained under human motion priors through imitation-constrained reinforcement learning, introducing biomechanically consistent inductive biases that ensure natural and physically plausible motion generation. Building upon this foundation, we further develop an Intelligent Routing Mechanism (IRM) supervised by a Vision-Language Model (VLM), enabling semantic-driven expert composition. The VLM-guided router dynamically integrates expert policies according to high-level task semantics, facilitating compositional generalization and adaptive execution in multi-stage loco-manipulation tasks.